自己寫(xiě)的就一定會(huì)被搜索引擎認(rèn)為這是一篇原創(chuàng)文章,并不是網(wǎng)站有文章百度優(yōu)化。因?yàn)槠渲羞€有很多技術(shù)方面的問(wèn)題,搜索引擎還未能解決。記得我曾經(jīng)在一個(gè)網(wǎng)站每天更新一篇文章,一篇文章的字?jǐn)?shù)只有100字左右,但是文章頁(yè)面非常簡(jiǎn)單,簡(jiǎn)單到整個(gè)頁(yè)面沒(méi)有JSCSSHTML代碼,只有文字,但收錄卻非常好,而有一些網(wǎng)站,用JSCSShtml代碼把網(wǎng)站修飾的非常漂亮,但是發(fā)布的文章卻不收錄,這讓我開(kāi)始覺(jué)得代碼與原創(chuàng)度有直接關(guān)系。
200KB算是很大了博客只有30KB左右,忘記了哪里看到過(guò)這樣的一句話“搜索引擎只能識(shí)別200KB以內(nèi)的內(nèi)容”對(duì)于一個(gè)網(wǎng)頁(yè)而言。所以我博客在搜索引擎中抓取是完全沒(méi)有壓力,如果你網(wǎng)站有超過(guò)200KB覺(jué)得你應(yīng)該要優(yōu)化了
來(lái)看看,這和網(wǎng)站的文件大小有什么關(guān)系呢?好。搜索引擎在抓取一個(gè)頁(yè)面的流程是從頭到底,任何一個(gè)頁(yè)面都有一個(gè)共同點(diǎn),那就是頭部一樣、底部一樣,唯一不一樣的就是文章內(nèi)容,那么搜索引擎在抓取頭部有10KB左右是一模一樣的中部文字的時(shí)候只有2KB不一樣的而底部又有10KB一模一樣的那么還會(huì)認(rèn)為這是原創(chuàng)文章嗎?
那就是搜索引擎是不認(rèn)識(shí)字的只有把這個(gè)漢字放到數(shù)據(jù)庫(kù)去對(duì)比,這里還得給大家灌輸一個(gè)理念。當(dāng)一對(duì)比一個(gè)新文章頁(yè)面的時(shí)候,總共22KB頁(yè)面,居然有20KB一模一樣,就算是寫(xiě)了原創(chuàng)文章,也會(huì)被列入到偽原創(chuàng)的列表中去。
對(duì)原創(chuàng)文章的判斷得出了這樣的一個(gè)理論,經(jīng)過(guò)我3年的SEO優(yōu)化加測(cè)試百度優(yōu)化。當(dāng)一個(gè)頁(yè)面比較大的時(shí)候,一個(gè)頁(yè)面的不同點(diǎn)至少占頁(yè)面的1/3那么寫(xiě)多少文字呢,比方你頁(yè)面有10KB那么至少的寫(xiě)3KB文字,剩下的7KB相同,這些才不容易被列入到偽原創(chuàng)的列表中。當(dāng)然,這是個(gè)人得出的理論,并沒(méi)有完全的證據(jù)和理論來(lái)證明。
為什么剽竊者的網(wǎng)站更容易收錄?
為何剽竊我網(wǎng)站的內(nèi)容還先收錄呢,那么還有一個(gè)問(wèn)題來(lái)了既然要抓取、識(shí)別、釋放這么復(fù)雜的流程。這是大家很糾結(jié)的這個(gè)問(wèn)題,也糾結(jié)了很久,直到有一天,自己做了一個(gè)平臺(tái),每天讓自媒體人發(fā)布非常原創(chuàng)內(nèi)容的時(shí)候,才總結(jié)出來(lái),為何越剽竊越容易收錄!
覺(jué)得咱們先要搞清楚新聞內(nèi)容是收錄流程,談?wù)撠飧`者網(wǎng)站為何會(huì)收錄塊的時(shí)候。新聞內(nèi)容相對(duì)普通的內(nèi)容收錄較快,因?yàn)樾侣剝?nèi)容具有時(shí)效性,所以必需當(dāng)場(chǎng)發(fā)當(dāng)場(chǎng)收錄,然后釋放進(jìn)去,不然拖到第二天在收錄的話,這個(gè)新聞可能不熱了關(guān)注的人也就少了百度從而失去了這個(gè)體驗(yàn)。
通常剽竊者的網(wǎng)站是剽竊過(guò)多篇文章,而抄襲者的網(wǎng)站與新聞內(nèi)容類(lèi)似。其中有直接剽竊原創(chuàng)者,也就剽竊二手文章,抄來(lái)抄去,互聯(lián)網(wǎng)同樣的文章就非常多了當(dāng)一篇文章被互聯(lián)網(wǎng)多次剽竊,這就意味著這篇文章比較熱門(mén),不熱門(mén)怎么會(huì)這么多人抄襲呢?最終就出現(xiàn)了一個(gè)熱點(diǎn)效應(yīng),收錄的門(mén)檻也就降低了所以就出現(xiàn)了剽竊者抄襲了文章,比你還先收錄。
下一篇:沒(méi)有了