什么是robots.txt文件

robots和談（也稱為爬蟲和談、爬蟲法則、機械人和談等）也就是robots.txt，網站經由過程robots和談告訴搜刮引擎哪些頁面可以抓取，哪些頁面不但愿被抓取。

方式/步調

1
有什么感化
Robots和談是網站國際互聯網界通行的道德規范，其目標是庇護網站數據和敏感信息、確保用戶小我信息和隱私不被加害。
因其不是號令，故需要搜刮引擎自發遵守。
2
一個網站為什么要寫robots.txt
1、庇護網站平安
2、節流流量
3、禁止搜刮引擎收錄部門頁面
4、指導蜘蛛爬網站地圖
3
淘寶的robots.txt
4
淘寶的robots.txt
5
京東的robots.txt
6
Robots.txt放置位置
Robots.txt文件應該放置在網站根目次下
例如:當spider拜候一個網站（http://www.xxx.com）時，起首會查抄該網站中是否存在http://www.xxx.com/robots.txt這個文件，若是 Spider找到這個文件，它就會按照這個文件的內容，來確定它拜候權限的規模。
7
Robots.txt文件的寫法
User-agent: * 這里的*代表的所有的搜刮引擎種類，*是一個通配符
Disallow: /admin/ 這里界說是禁止爬尋admin目次下面的目次
Disallow: /*?* 禁止拜候網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格局的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/　這里界說是許可爬尋cgi-bin目次下面的目次
Allow: .htm$ 僅許可拜候以".htm"為后綴的URL。
Allow: .gif$ 許可抓取網頁和gif格局圖片
Sitemap: 網站地圖告訴爬蟲這個頁面是網站地圖
8
百度站長平臺建立robots