一般都說能夠 應(yīng)用robots.txt 文檔來屏蔽掉不愿被百度搜索引擎爬取的網(wǎng)頁頁面,可是這種“不愿被爬取的網(wǎng)頁頁面”般都是有什么呢?下邊我來舉好多個簡易的事例。
(1)多版本號URL狀況下,非主顯URL 的別的版本號。例如網(wǎng)頁鏈接偽靜態(tài)后也不期待百度搜索引擎爬取動態(tài)性版本號了,這時候就可以應(yīng)用robots.txt 屏蔽站內(nèi)全部動態(tài)鏈接。
(2) 假如網(wǎng)址內(nèi)有很多的交叉式組成查尋所轉(zhuǎn)化成的網(wǎng)頁頁面,毫無疑問有很多網(wǎng)頁頁面是沒有內(nèi)容的,針對沒有內(nèi)容的網(wǎng)頁頁面能夠 獨(dú)立設(shè)定一個URL 特點(diǎn),隨后應(yīng)用robots.txt 開展屏蔽掉,防止被百度搜索引擎覺得網(wǎng)址生產(chǎn)制造廢棄物網(wǎng)頁頁面。
(3) 假如網(wǎng)站SEO或由于種種原因忽然刪除了很多網(wǎng)頁頁面,大家都知道。網(wǎng)址突然冒出很多死鏈對網(wǎng)址在百度搜索引擎上的主要表現(xiàn)是不好的。盡管現(xiàn)在可以立即向百度提交死鏈,可是還比不上立即屏蔽掉百度搜索對死鏈的爬取,那樣理論上百度搜索就不容易忽然發(fā)覺網(wǎng)址多了過多死鏈,或是二者另外開展。自然網(wǎng)站站長自身最好是把網(wǎng)站內(nèi)部的死鏈清除整潔。
(4) 假如網(wǎng)址有相近UGC 的作用,且以便提升客戶出示內(nèi)容的主動性并沒有嚴(yán)禁客戶在內(nèi)容中參雜連接,這時以便不許這種連接消耗百度權(quán)重或拖累網(wǎng)址,就可以把這種連接制成網(wǎng)站內(nèi)部的自動跳轉(zhuǎn)連接,隨后應(yīng)用robots.txt開展屏蔽掉?,F(xiàn)在有許多社區(qū)論壇早已那樣實(shí)際操作了。
(5) 基本的不期待被百度搜索引擎數(shù)據(jù)庫索引的內(nèi)容,例如隱私保護(hù)數(shù)據(jù)信息、客戶信息、后臺管理系統(tǒng)網(wǎng)頁頁面等都能夠應(yīng)用robots.txt 開展屏蔽掉。