一般都說能夠 應(yīng)用robots.txt 文檔來屏蔽掉不愿被百度搜索引擎爬取的網(wǎng)頁頁面,可是這種“不愿被爬取的網(wǎng)頁頁面”般都是有什么呢?下邊我來舉好多個(gè)簡(jiǎn)易的事例。
(1)多版本號(hào)URL狀況下,非主顯URL 的別的版本號(hào)。例如網(wǎng)頁鏈接偽靜態(tài)后也不期待百度搜索引擎爬取動(dòng)態(tài)性版本號(hào)了,這時(shí)候就可以應(yīng)用robots.txt 屏蔽站內(nèi)全部動(dòng)態(tài)鏈接。
(2) 假如網(wǎng)址內(nèi)有很多的交叉式組成查尋所轉(zhuǎn)化成的網(wǎng)頁頁面,毫無疑問有很多網(wǎng)頁頁面是沒有內(nèi)容的,針對(duì)沒有內(nèi)容的網(wǎng)頁頁面能夠 獨(dú)立設(shè)定一個(gè)URL 特點(diǎn),隨后應(yīng)用robots.txt 開展屏蔽掉,防止被百度搜索引擎覺得網(wǎng)址生產(chǎn)制造廢棄物網(wǎng)頁頁面。
(3) 假如網(wǎng)站SEO或由于種種原因忽然刪除了很多網(wǎng)頁頁面,大家都知道。網(wǎng)址突然冒出很多死鏈對(duì)網(wǎng)址在百度搜索引擎上的主要表現(xiàn)是不好的。盡管現(xiàn)在可以立即向百度提交死鏈,可是還比不上立即屏蔽掉百度搜索對(duì)死鏈的爬取,那樣理論上百度搜索就不容易忽然發(fā)覺網(wǎng)址多了過多死鏈,或是二者另外開展。自然網(wǎng)站站長(zhǎng)自身最好是把網(wǎng)站內(nèi)部的死鏈清除整潔。
(4) 假如網(wǎng)址有相近UGC 的作用,且以便提升客戶出示內(nèi)容的主動(dòng)性并沒有嚴(yán)禁客戶在內(nèi)容中參雜連接,這時(shí)以便不許這種連接消耗百度權(quán)重或拖累網(wǎng)址,就可以把這種連接制成網(wǎng)站內(nèi)部的自動(dòng)跳轉(zhuǎn)連接,隨后應(yīng)用robots.txt開展屏蔽掉。現(xiàn)在有許多社區(qū)論壇早已那樣實(shí)際操作了。
(5) 基本的不期待被百度搜索引擎數(shù)據(jù)庫(kù)索引的內(nèi)容,例如隱私保護(hù)數(shù)據(jù)信息、客戶信息、后臺(tái)管理系統(tǒng)網(wǎng)頁頁面等都能夠應(yīng)用robots.txt 開展屏蔽掉。