lala 發表於 2014-9-16 11:30:17

網站必備-robots.txt搜尋小蜘蛛請止步

網站必備-robots.txt搜尋小蜘蛛請止步

當今天設計好網頁後,都希望搜尋引擎的小蜘蛛來造訪,
當小蜘蛛來訪時不管三七二十一,
就把站中的資料通通抓回去,並寫到搜尋引擎的資料庫中,
若有些較機密的資料被搜走那就不好了,
所以這時就可以設定規則,告知小蜘蛛那些是不可外帶的,
如此一來就不用擔心資料外洩等問題。

http://i1.wp.com/photo.minwt.com/img/Content/webdesign/robotStop.gif



robots.txt語法設定:
User-agent: {搜尋引擎小蜘蛛名稱}
Disallow: {不允許搜索的檔案位置}


範例1.
User-agent用*代表所有的搜尋小蜘蛛
Disallow: /tmp/ 表示tmp底下的所有資料禁止外帶
User-agent: *
Disallow: /tmp/


範例2.
Disallow: /tmp/abc.html 表示tmp/abc.html網頁禁止外帶
User-agent: *
Disallow: /tmp/abc.html


範例3.
Disallow: / 表示該站的所有資料都不允許外帶
User-agent: *
Disallow: /


範例4.
表示只有Google跟MSN的小蜘蛛,對於該站所有資料都不允許外帶
User-agent: Googlebot
User-agent: Slurp
Disallow: /



設定完畢後,再將它存成robots.txt,並上傳到網頁的根目錄下,
一般User-agent都設*居多,除非有特別需求,那些資料不允許某些的搜尋小蜘蛛收集,
這是一個很簡單也很重要的設定喔!                                                                




頁: [1]
查看完整版本: 網站必備-robots.txt搜尋小蜘蛛請止步