瀏覽數(shù)量: 64 作者: 本站編輯 發(fā)布時間: 2018-12-28 來源: 本站
人類和AI對重復(fù)內(nèi)容的理解不同,會造成誤判的情況。那么怎么了解AI判斷重復(fù)內(nèi)容的規(guī)律,并加以利用好呢?
Google PageRank是立于大數(shù)據(jù)的智能算法,它們反而缺少人類自帶的:常識。
要知道,在多個頁面上編輯相同內(nèi)容就會產(chǎn)生重復(fù)內(nèi)容。但是如果您創(chuàng)建了關(guān)于類似產(chǎn)品的頁面會有怎樣的影響呢?算法會把它們標記成重復(fù),但其實它們并是不一樣的兩個產(chǎn)品。例如:
· 電商:具有多種型號的或關(guān)鍵差異的相似產(chǎn)品
· 旅游:酒店的分店,目的地的套餐,相似的內(nèi)容
· 分類:相同的項目詳盡列表
· 業(yè)務(wù):本地的分支機構(gòu)頁面,在不同的地區(qū)提供相同服務(wù)
一 重復(fù)內(nèi)容有危險
網(wǎng)站會出現(xiàn)如下情況:
· 失去競爭相同關(guān)鍵詞唯一網(wǎng)頁的排名
· 無法對集中的網(wǎng)頁進行排名,因為Google選擇了其中一個網(wǎng)頁作為規(guī)范
· 大量的精簡內(nèi)容丟失了網(wǎng)站權(quán)限
二 機器如何識別重復(fù)內(nèi)容
谷歌使用算法來確認兩個頁面或多個頁面是否為重復(fù)內(nèi)容,而谷歌將其定義成“ 明顯相似 ”內(nèi)容。
谷歌的相似性檢測利用他們的專利Simhash算法,這個算法能分析網(wǎng)頁上的內(nèi)容。然后,它為每塊內(nèi)容計算唯一的標識符,并為每個頁面組成一個散列或“指紋”。
由于網(wǎng)頁的數(shù)量巨大,因此可擴展性更加重要。目前,Simhash是大規(guī)模搜索重復(fù)內(nèi)容的唯一方法。
Simhash指紋:
· 計算成本低,它們是在頁面單個的爬網(wǎng)中建立的。
· 固定長度,容易比較。
· 能夠找到重復(fù)的內(nèi)容,與很多算法不同,它將頁面上的微小改變等同于散列中的微小改變。
這意味著任意兩個指紋之間的差異都可以通過算法測量并顯示為數(shù)值。為了降低評估每個也面的成本,谷歌采取了以下技術(shù):
· 聚類:通過將多個足夠相似的頁面分在一組,只需較對聚類中的指紋,因為其他所有指針都已被分類為不相似。
· 估計:對于非常大的聚類,在計算一定數(shù)量的指紋對之后應(yīng)用平均的相似性。
比較頁面指紋。
最后,谷歌用加權(quán)相似率排除相似的內(nèi)容的某些部分(如:標題,導(dǎo)航,側(cè)邊欄,頁腳,免責聲明等)。它考慮到了頁面的主題,利用n-gram來確認頁面上哪些字最常出現(xiàn),并在網(wǎng)站的上下文中是最重要的。
三 利用Simhash分析相似內(nèi)容
利用Simhash查看標記為相同內(nèi)容集群的地圖。OnCrawl的圖表覆蓋了對重復(fù)內(nèi)容群集的相似內(nèi)容策略分析。
OnCrawl的內(nèi)容分析還包括相似性比例,內(nèi)容聚類和n-gram分析。OnCrawl還在開發(fā)了實驗性熱圖,表明每塊內(nèi)容的相似性可以覆蓋在網(wǎng)頁上。
按內(nèi)容相似性反應(yīng)網(wǎng)站。每一個塊表示擁有類似內(nèi)容的集群。顏色表示每一個群集的規(guī)范化策略的一致性。
四 使用規(guī)范驗證集群
使用規(guī)范的URL來指示一組相似網(wǎng)頁中的主頁面是一種主動的聚集頁面方式。理想狀態(tài)下,由規(guī)范創(chuàng)建的集群和由Simhash建立的集群應(yīng)該是一樣的。
標準的聚類匹配相似性聚類(綠色)。突出顯示:6頁完全相似。您的規(guī)范政策和Google的Simhash分析以相同的方式對待這些頁面。
如果不是這種情況,一般是因為網(wǎng)站上沒有規(guī)范的政策:
沒有規(guī)范聲明:每數(shù)百個頁的集群,平均相似率為99-100%。谷歌將會施加規(guī)范URL。你無法控制哪些頁面將被排名,而哪些頁面將不排名。
或者因為規(guī)范策略與谷歌用來對類似內(nèi)容進行分組的方法之間發(fā)生沖突:
規(guī)范問題:有超過80%相似性的大型集群或每個集群的多個規(guī)范網(wǎng)址。谷歌會強制使用自己的規(guī)范URL,或把你希望保留的重復(fù)頁面編入索引。
你的網(wǎng)站群集與上面的群集不一樣。你已經(jīng)遵循了相似內(nèi)容的最佳做法。包含相似內(nèi)容的URL(例如可打印/移動版本或CMS生成的備用URL)會聲明正確的規(guī)范URL。
規(guī)范化后映射相似性聚類
過濾掉的規(guī)范策略正確處理的重復(fù)內(nèi)容,其余非規(guī)范化網(wǎng)址是要排名的網(wǎng)頁。
刪除經(jīng)驗證的(綠色)組和有小于80%相似性的組之后的先前映射。其余46個集群中的大多數(shù)只有兩頁。
仍然出現(xiàn)在利用Simhash和語義分析的群集中的網(wǎng)址是您和Google不同意的網(wǎng)址。
五 解決重復(fù)內(nèi)容的問題
沒有最好的技巧來糾正機器對表面相似的獨立頁面的看法:我們沒有辦法改變G谷歌識別相似內(nèi)容的方式。但是,依然有一些小技巧能夠讓你的獨特內(nèi)容和谷歌保持一致的感知......同時依然根據(jù)你需要的關(guān)鍵詞進行排名。
下面我們舉出五種策略:
1、解決邊緣情況
首先我們查看邊緣的情況:擁有非常低或非常高的相似度的聚類。
· 相似度低于20%:相似,但不太相同。嘗試通過鏈接群集中的網(wǎng)頁,使用每個網(wǎng)頁的不一樣的錨文本,通知谷歌將它們視為不同的網(wǎng)頁。
· 最大相似度:找到潛在的問題。需要豐富內(nèi)容以區(qū)別網(wǎng)頁或?qū)⒕W(wǎng)頁合并成一個。
2、減少重復(fù)頁面的數(shù)量
網(wǎng)頁不要追求數(shù)量,需要追求的是質(zhì)量。大量重復(fù)的網(wǎng)頁,將會產(chǎn)生網(wǎng)頁里面小塊內(nèi)容相似度過高,容易被搜索引擎認為是重復(fù)的頁面,將會影響到網(wǎng)站整體的索引。
3、使獨特的頁面
請記?。簝?nèi)容微小的差異也會體現(xiàn)在Simhash中指紋中。您需要對網(wǎng)頁上的內(nèi)容進行重大的改變,而不是只進行細微的調(diào)整。
如何豐富網(wǎng)頁的內(nèi)容:
· 向網(wǎng)頁添加新的文本內(nèi)容
· 添加更多不同的圖像描述
· 包括更完整的客戶評論
· 添加更多其他信息
· 添加更多相關(guān)信息
· 使用不同的圖片信息
· 使用非常不同的錨文本測試鏈接到不同的頁面
· 減少相似頁面之間共同的源代碼數(shù)量
· 提高網(wǎng)頁語義的密度
· 增加更多與主題相關(guān)的詞匯量并避免填充
4、創(chuàng)建排名參考頁面
若沒辦法或不適合更改你的網(wǎng)頁,可以考慮創(chuàng)建一個代替所有“相似”網(wǎng)頁的獨立參考頁面。這個策略利用與內(nèi)容中心一樣的原理來提升多個關(guān)鍵詞的主頁面。當你需要把多個版本的產(chǎn)品作為獨立的頁面進行維護時,它將尤其實用。
這個策略可以用于創(chuàng)建固定需求和季節(jié)性機會的網(wǎng)頁。它能夠通過提供更為強大的語義和排名來改善頁面群。
它還能夠讓分類廣告網(wǎng)站,招聘網(wǎng)站或其他擁有許多類似列表的網(wǎng)站受益。參考的頁面應(yīng)按獨立特征對列表進行分組。
那該怎么辦:
1. 創(chuàng)建一個參考的頁面,匯集了所有“重復(fù)”產(chǎn)品頁面的語義內(nèi)容。它應(yīng)該宣傳您要使用的所有關(guān)鍵詞并鏈接到所有“重復(fù)”URL。
2. 將每個“重復(fù)”頁面的規(guī)范網(wǎng)址設(shè)置為參考網(wǎng)頁,將參考網(wǎng)頁的規(guī)范網(wǎng)址設(shè)置成自身。
3. “重復(fù)”頁面之間的鏈接。
4. 優(yōu)化網(wǎng)站的導(dǎo)航用以推廣參考網(wǎng)頁。
通過加強“重復(fù)”頁面,規(guī)范聲明和組合內(nèi)容的鏈接,參考網(wǎng)頁很容易排名。
5、合并你的網(wǎng)頁
如果你一直在嘗試使用相同的內(nèi)容來豐富網(wǎng)頁,你可能無法解釋為什么要保留它們,也許是時候?qū)⑺鼈冋系揭黄鹆恕?/span>
如果你決定將頁面整合成一個:
· 保持表現(xiàn)最佳的URL。
· 將你正在刪除的網(wǎng)頁重定向(301)到你要保留的網(wǎng)頁。
· 將你要刪除的網(wǎng)頁中的內(nèi)容添加到你要保留的網(wǎng)頁中,并對它們進行優(yōu)化用以對所有群集的關(guān)鍵詞進行排名。