瀏覽數(shù)量: 32 作者: 本站編輯 發(fā)布時(shí)間: 2018-09-20 來源: 本站
一、什么是Robots文件?
1、Robots定義
robots是網(wǎng)站站點(diǎn)與搜索引擎蜘蛛程序(spider)溝通的重要渠道,站點(diǎn)通過robots文件聲明該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
請(qǐng)注意,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請(qǐng)勿建立robots.txt文件。目前,黑蝠系統(tǒng)中設(shè)置的Robots文件是允許所有內(nèi)容都被搜索引擎收錄的。
2、robots.txt文件的格式
robots文件往往放置于根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結(jié)束符),每一條記錄的格式如下所示:
"<field>:<optional space><value><optionalspace>"
在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,詳細(xì)情況如下:
User-agent:該項(xiàng)的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多條User-agent記錄說明有多個(gè)robot會(huì)受到"robots.txt"的限制,對(duì)該文件來說,至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則對(duì)任何robot均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名為"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。
Disallow:該項(xiàng)的值用于描述不希望被訪問的一組URL,這個(gè)值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項(xiàng)的值開頭的URL不會(huì)被 robot訪問。例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"則允許robot訪問/help.html、/helpabc.html,不能訪問/help/index.html。"Disallow:"說明允許robot訪問該網(wǎng)站的所有url,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空文件,則對(duì)于所有的搜索引擎robot,該網(wǎng)站都是開放的。
Allow:該項(xiàng)的值用于描述希望被訪問的一組URL,與Disallow項(xiàng)相似,這個(gè)值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項(xiàng)的值開頭的URL 是允許robot訪問的。例如"Allow:/hibaidu"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個(gè)網(wǎng)站的所有URL默認(rèn)是Allow的,所以Allow通常與Disallow搭配使用,實(shí)現(xiàn)允許訪問一部分網(wǎng)頁同時(shí)禁止訪問其它所有URL的功能。
使用"*"and"$":Baiduspider支持使用通配符"*"和"$"來模糊匹配url。
"*" 匹配0或多個(gè)任意字符
"$" 匹配行結(jié)束符。
最后需要說明的是:百度會(huì)嚴(yán)格遵守robots的相關(guān)協(xié)議,請(qǐng)注意區(qū)分您不想被抓取或收錄的目錄的大小寫,百度會(huì)對(duì)robots中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則robots協(xié)議無法生效。
3、常用Robots文件的寫法
1、允許所有搜索引擎訪問
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
在這里大家要注意下,可以最直接的建一個(gè)空文件 “robots.txt”然后放到網(wǎng)站的根目錄。
2、禁止所有搜索引擎訪問
User-agent: *
Disallow: /
或者
User-agent: *
allow:
3、禁止所有搜索引擎訪問網(wǎng)站中的幾個(gè)部分,在這里我用a、b、c目錄來代替
User-agent: *
Disallow: /a/
Disallow: /b/
Disallow: /c/
如果是允許,則是
Allow: /a/
Allow: /b/
Allow: /c/
4、禁止某個(gè)搜索引擎的訪問,我用w來代替
User-agent: w
Disallow: /
或
User-agent: w
Disallow: /d/*.htm
在Disallow:后面加 /d/*.htm的意思是禁止訪問/d/目錄下的所有以”.htm”為后綴的URL,包含子目錄。
5、只允許某個(gè)搜索引擎的訪問,我用e來代替
User-agent: e
Disallow:
在Disallow:后面不加任何東西,意思是僅允許e訪問該網(wǎng)站。
6、使用”$”限制訪問url
User-agent: *
Allow: .htm$
Disallow: /
意思是僅允許訪問以”.htm”為后綴的URL
7、禁止訪問網(wǎng)站中所有的動(dòng)態(tài)頁面
User-agent: *
Disallow: /*?*
8、禁止搜索引擎F抓取網(wǎng)站上所有圖片
User-agent: F
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
意思是只允許引擎抓取網(wǎng)頁,禁止抓取任何圖片(嚴(yán)格來說,是禁止抓取jpg、jpeg、gif、png、bmp格式的圖片。)
9、只允許搜索引擎E抓取網(wǎng)頁和.gif格式圖片
User-agent: E
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意思是只允許抓取網(wǎng)頁和gif格式圖片,不允許抓取其他格式圖片
注意事項(xiàng):
絕大多數(shù)的搜索引擎機(jī)器人都遵守robots文件的規(guī)則,關(guān)于怎么寫robots文件的方法,大致就是這些了。要提醒大家的是:robots.txt文件一定要寫對(duì),如果不太會(huì)寫,還是要先了解再寫,以免給網(wǎng)站的收錄帶來麻煩。
二、在黑蝠系統(tǒng)中,如何設(shè)置Robots文件?
第1步:登錄黑蝠系統(tǒng),做如下操作:
第2步:在下圖中設(shè)置Robots文件,保存;
第3步:保存,發(fā)布即可生效。
如果是網(wǎng)站上的單個(gè)頁面不需要被收錄,可以在這個(gè)頁面的源代碼里面加上一個(gè)meta robots標(biāo)簽:<Meta name="robots" content="noindex,follow">。