1、什麼是robots.txt文件?在網站優化中有什麼作用
robots.txt 也就 robots協議,是搜索引擎中訪問網站的時候要查看的第一個文件。通過robots.txt文件告訴搜索引擎蜘蛛哪些頁面可以抓取,哪些頁面不能抓取。
2、seo中robots.txt是什麼意思?
它是一種存放於網站根目錄下的文本文件,通常告訴搜索引擎蜘蛛 網站中哪些內容是不能被搜索引擎蜘蛛獲取的 哪些是可以獲取的
3、seo面試:roboxs.txt有什麼用
一、robots.txt是什麼?
robots.txt是一個純文本文件,在這個文件中網站管理者可以聲明該內網站中不想被搜索引容擎訪問的部分,或者指定搜索引擎只收錄指定的內容。
當一個搜索引擎(又稱搜索機器人或蜘蛛程序)訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,那麼搜索機器人就沿著鏈接抓取。
二、robots.txt的作用
1、引導搜索引擎蜘蛛抓取指定欄目或內容;
2、網站改版或者URL重寫優化時候屏蔽對搜索引擎不友好的鏈接;
3、屏蔽死鏈接、404錯誤頁面;
4、屏蔽無內容、無價值頁面;
5、屏蔽重復頁面,如評論頁、搜索結果頁;
6、屏蔽任何不想被收錄的頁面;
7、引導蜘蛛抓取網站地圖;
4、在網站中的robots.txt是用來干什麼的哦?對網站有什麼影響啊?
本文我們將看一看機器人拒絕標准(Robots Exclusion Standard),這聽起來像是科幻小說里的內容,其實它是一個用於阻止搜索引擎者蜘蛛(spider)或機器人(robots)訪問網站內容的一個工具。
Robots.txt是一個純文本文件,通過該文件可以控制搜索引擎蜘蛛(spider)訪問網站的內容,必須將其放在網站的根目錄才可以正常使用,且文件名應該為小寫,比如「http://www.youdomain.com/robots.txt」,即使您的網站沒有設置對搜索引擎訪問的限制,最好也能放一個空白的robots.txt文件在網站根目錄下。
創建一個Robots.txt
如果不希望任何機器人(robots)或者蜘蛛(spider)索引網站,可以在Robots.txt里鍵入如下規則:
User-agent: *
Disallow: /
在這個例子中,"*"是個通配符,表示此規則被應用到所有的搜索引擎(Search Engine),此通配符是
一個特殊的符號表示一切內容,一個典型的用法:如果鍵入 「d*ng」 ,則計算機可以解釋為:
「ding」,"dang","dong","ng","dzing" 等更多的內容會符合。
Disallow表示不允許被搜索引擎訪問的網頁文件或者目錄,對它的設置正確與否非常重要,如果設置
不當,也許會對網站造成極大的損失。
如果允許搜索引擎蜘蛛(spider)訪問網站的全部內容,則設置方法如下:
User-agent: *
Disallow:
以上設置方法中,User-agent仍然是使用通配符*表示所有搜索引擎蜘蛛,Disallow為空表示允許搜索
引擎蜘蛛訪問網站所有的文件,即不對搜索引擎做任何限制,完全敞開了讓蜘蛛們任意訪問。
如果讓所有搜索引擎機器人不訪問和索引網站根目錄下的images目錄,則可以使用如下寫法:
User-agent: *
Disallow: /images/
上面的例子表示讓所有搜索引擎蜘蛛遠離/images/目錄及目錄下所有的文件。注意/images/後的「/」
,如果是/images的話,則比如/images.html , /images/index.html都不允許搜索引擎蜘蛛訪問。
如果不允許搜索引擎蜘蛛訪問指定的一個文件,則設置方法如下:
User-agent: *
Disallow: /images/biggorillaonatricycle.jpg
這時搜索引擎蜘蛛會掃描訪問除了images目錄下biggorillaonatricycle.jpg的所有文件,但是如果其
它目錄比如imagestwo下有biggorillaonatricycle.jpg這張圖片的話,那麼搜索引擎蜘蛛一樣會訪問
到,因此我們可以使用如下設置方法:
User-agent: *
Disallow: /images/biggorillaonatricycle.jpg
Disallow: /imagestwo/biggorillaonatricycle.jpg
下面的設置方法也不錯:
User-agent: *
Disallow: /images/
Disallow: /imagestwo/
Disallow: /aboutus/
上面例子告訴搜索引擎蜘蛛忽視指定的三個目錄,但是也可以同時指定目錄和文件:
User-agent: *
Disallow: /images/
Disallow: /imagestwo/
Disallow: /aboutus/wearereallyevil.html
限制指定的搜索引擎蜘蛛(spider)/機器人(Robots)
之前說到如何限制搜索引擎蜘蛛訪問網站文件,下面開始如何限制指定的搜索引擎蜘蛛訪問網站文件
。
如果想告訴某一個搜索引擎蜘蛛忽視網站的所有目錄和文件,則使用如下設置方法:
User-agent: Google-Bot
Disallow: /
Google-Bot表示為Google的搜索引擎蜘蛛/機器人
slurp 表示為Yahoo的搜索引擎蜘蛛/機器人
當然也可以告訴一個指定的搜索引擎蜘蛛,忽視網站的一個指定目錄和文件,設置方法如下:
User-agent: Google-Bot
Disallow: /images/
Disallow: /secrets/globaldomination.html
User-agent: slurp
Disallow: /images/
Disallow: /secrets/globaldomination.html
Disallow: /tmp/
User-agent: slurp
Disallow: /images/
Disallow: /secrets/globaldomination.html
User-agent: Google-Bot
Disallow: /images/
Disallow: /secrets/globaldomination.html
Disallow: /cgi-bin/
參考資料:http://www.hi-open.cn/index.php/archives/9/
來自:http://www.hi-open.cn
5、robots文件是什麼意思?他對網站的優化能起到什麼作用?
最主要的用處是告訴搜索引擎哪些頁面不需要收錄
6、robotx.txt怎麼寫?對網站優化有什麼好處
下面把robots.txt正確寫法分享給大家!
我們先來了解一下什麼是robots.txt?
搜索引擎使用spider程序自動訪問互聯網上的網頁並獲取網頁信息。spider在訪問一個網站時,會首先會檢查該網站的根域下是否有一個叫做robots.txt的純文本文件。您可以在您的網站中創建一個純文本文件robots.txt,在文件中聲明該網站中不想被robot訪問的部分或者指定搜索引擎只收錄特定的部分。
請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件或者創建一個內容為空的robots.txt文件。
robots.txt 放置位置
robots.txt文件應該放置在網站根目錄下。舉例來說,當spider訪問一個網站(比如http://www.ubangmang.com)時,首先會檢查該網站中是否存在http://www.ubangmang.com/robots.txt這個文件,如果
Spider找到這個文件,它就會根據這個文件的內容,來確定它訪問許可權的范圍。
robots.txt 格式
文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL,
or
NL作為結束符),每一條記錄的格式如下所示:」:」。在該文件中可以使用#進行註解。該文件中的記錄通常以一行或多行User-agent開始,後面加上若干Disallow和Allow行,詳細情況如下。
User-agent:
該項的值用於描述搜索引擎robot的名字。在」robots.txt」文件中,如果有多條User-agent記錄說明有多個robot會受到」robots.txt」的限制,對該文件來說,至少要有一條User-agent記錄。
如果該項的值設為*,則對任何robot均有效,在」robots.txt」文件中,」User-agent:*」這樣的記錄只能有一條。如果在」robots.txt」文件中,加入」User-
agent:SomeBot」和若干Disallow、Allow行,那麼名為」SomeBot」只受到」User-agent:SomeBot」後面的
Disallow和Allow行的限制。 Disallow:
該項的值用於描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被robot訪問。例
如」Disallow: /help」禁止robot訪問/help*.html、/help/index.html, 而」Disallow:
/help/」則允許robot訪問/help*.html,不能訪問/help/index.html。
"Disallow:"說明允許robot訪問該網站的所有url,在」/robots.txt」文件中,至少要有一條Disallow記錄。如果」/robots.txt」不存在或者為空文件,則對於所有的搜索引擎robot,該網站都是開放的。
Allow:
該項的值用於描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL是允許robot訪問的。例如」Allow:/hibaidu」允許robot訪問/hibaidu.htm、/hibaiducom.html、
/hibaidu/com.html。一個網站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有URL的功能。
需要特別注意的是Disallow與Allow行的順序是有意義的,robot會根據第一個匹配成功的 Allow或Disallow行確定是否訪問某個URL。
使用」*」和」$」: Baispider 支持使用通配符」*」和」$」來模糊匹配url。 「$」 匹配行結束符。 「*」 匹配0或多個任意字元。
robots.txt文件用法舉例:
1. 允許所有的robot訪問
User-agent: * Allow: / 或者 User-agent: * Disallow:
2. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
3. 僅禁止Baispider訪問您的網站
User-agent: Baispider
Disallow: /
4. 僅允許Baispider訪問您的網站
User-agent: Baispider
Disallow:
5. 禁止spider訪問特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
6. 允許訪問特定目錄中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
7. 使用」*」限制訪問url
禁止訪問/cgi-bin/目錄下的所有以」.htm」為後綴的URL(包含子目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
8. 使用」$」限制訪問url
僅允許訪問以」.htm」為後綴的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止訪問網站中所有的動態頁面
User-agent: *
Disallow: /*?*
10. 禁止Baispider抓取網站上所有圖片
僅允許抓取網頁,禁止抓取任何圖片。
User-agent: Baispider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
11. 僅允許Baispider抓取網頁和.gif格式圖片
允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baispider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
12. 僅禁止Baispider抓取.jpg格式圖片
User-agent: Baispider
Disallow: .jpg$
一般這個在網站未上線前使用,等網站做好之後 就把這個協議去掉了,便於搜索引擎的抓取。
7、robots.txt與蜘蛛之間的關系是什麼?在seo優化中占據什麼位置
炒的可以嗎...
2分鍾前一個人每天看你的空間,為什麼?...
2分鍾前20多了,整天以網吧為家,不勞不作。...
2分鍾前解方程:4(x減1)的平方=9怎樣做...
2分鍾前老闆不還工資怎麼辦...
8、網站中的robots.txt文件有什麼作用
網站中的robots文件是一個搜索引擎抓取協議,可以通過提示搜索引擎哪些文件可以抓取哪些不能夠抓取。
9、.robots.txt具體作用是做什麼的?
1.對搜索引擎做出規定,抓取或者不抓取。
2.由於有些信息規定了不讓抓取,所以可以保護到一些必要的信息,比如:網站後台,用戶信息。
3.節省搜索引擎抓取資源。