Robots協議的約束力
“Robots的約束力固然僅限于自律,無強制性,但這不等于說它背后反映的精神,沒有法律基礎。,讓其切實有效地授權或者拒絕他人采集和使用其個人信息”,可見遵守規則就是要遵守公平競爭,不是沒有強制力就可以不公平競爭。
例子
允許所有的機器人:
User-agent: *
Disallow:
另一寫法
User-agent: *
Allow:/
僅允許特定的機器人:(name_spider用真實名字代替)
User-agent: name_spider
Allow:
攔截所有的機器人:
User-agent: *
Disallow: /
禁止所有機器人訪問特定目錄:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
僅禁止壞爬蟲訪問特定目錄(BadBot用真實的名字代替):
User-agent: BadBot
Disallow: /private/
禁止所有機器人訪問特定文件類型[2]:
User-agent: *
Disallow: /.php$
Disallow: /.js$
Disallow: /.inc$
Disallow: /.css$
非標準擴展協議
自動發現Sitemaps文件
Sitemap指令被幾大搜索引擎支持(包括Google、Yahoo、Bing和Ask),指定了網站Sitemaps文件的位置。Sitemaps文件包含了網站頁面所在的URL的一個列表。Sitemap指令并不受User-agent指令的限制,所以它可以放在robots.txt文件中的任意位置。[3] 唯一要注意的就是要使用網站地圖指令,<sitemap_location>,并將URL的"location"值換成網站地圖的地址,
————————————————
版權聲明:本文為CSDN博主「韓毓航」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/Smileal/article/details/123867695