我們先來認識一下什么是robots.txt? robots.txt是通過代碼控制搜索引擎蜘蛛索引的一個手段,以便減輕網站服務器的帶寬使用率,從而讓網站的空間更穩定,同時也可以提高網站其他頁面的索引效率,提高網站收錄。
下面我們再來熟悉一下怎樣使用robots.txt? 首先,我們需要創建一個robots.txt文本文件,然后在文檔內設置好代碼,告訴搜索引擎我網站的哪些文件你不能訪問。然后上傳到網站根目錄下面,因為當搜索引擎蜘蛛在索引一個網站時,會先爬行查看網站根目錄下是否有robots.txt文件。
robots.txt文件內的代碼書寫規范我們也要注意,其中User-agent:*是必須存在的,表示對所有搜索引擎蜘蛛有效。Disallow:是說明不允許索引哪些文件夾。
簡介
robots.txt文件是一個文本文件,使用任何一個常見的文本編輯器,比如Windows系統自帶的Notepad,就可以創建和編輯它。robots.txt是一個協議,而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。
當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
如果將網站視為酒店里的一個房間,robots.txt就是主人在房間門口懸掛的“請勿打擾”或“歡迎打掃”的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀,哪些房間因為存放貴重物品,或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令,也不是防火墻,如同守門人無法阻止竊賊等惡意闖入者。
原則 robots協議原理
Robots協議是國際互聯網界通行的道德規范,基于以下原則建立:
1、搜索技術應服務于人類,同時尊重信息提供者的意愿,并維護其隱私權;
2、網站有義務保護其使用者的個人信息和隱私不被侵犯。
功能 Robots協議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓??;可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節省服務器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面。
文件寫法
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
網站地圖
網站地圖是一個網站所有鏈接的容器。很多網站的連接比較層次比較深,蜘蛛很難抓取到,網站地圖可以方便搜索引擎蜘蛛抓取網站頁面,通過抓取網站頁面,清晰了解網站的架構,網站地圖一般存放在根目錄下并命名為sitemap,為搜索引擎蜘蛛指路,增加網站重要內容頁面的收錄。網站地圖就是根據網站的結構、框架、內容,生成的導航網頁文 網站地圖件。大多數人都知道網站地圖對于提高用戶體驗有好處:它們為網站訪問者指明方向,并幫助迷失的訪問者找到他們想看的頁面。對于SEO,網站地圖的好處就更多了:
1.為搜索引擎蜘蛛提供可以瀏覽整個網站的鏈接簡單的體現出網站的整體框架出來給搜索引擎看;
2.為搜索引擎蜘蛛提供一些鏈接,指向動態頁面或者采用其他方法比較難以到達的頁面;
3.作為一種潛在的著陸頁面,可以為搜索流量進行優化;
4.如果訪問者試圖訪問網站所在域內并不存在的URL,那么這個訪問者就會被轉到“無法找到文件”的錯誤頁面,而網站地圖可以作為該頁面的“準”內容。
設計網站地圖的作用非常重要,它不僅要滿足訪問用戶的需求,還要取悅搜索引擎蜘蛛。在設計上也有一些技巧來讓用戶和蜘蛛都獲得滿意:
1.網站地圖要包含最重要的一些頁面
如果網站地圖包含太多鏈接,人們瀏覽的時候就會迷失。因此如果網站頁面總數超過了100個的話,就需要挑選出最重要的頁面。建議挑選下面這些頁面放到網站地圖中去:
1)產品分類頁面。
2)主要產品頁面。
3)FAQ和幫助頁面。
4)位于轉化路徑上的所有關鍵頁面,訪問者將從著陸頁面出發,然后沿著這些頁面實現轉化。
5)訪問量最大的前10個頁面。
6)如果有站內搜索引擎的話,就挑選出從該搜索引擎出發點擊次數最高的那些頁面。
2.網站地圖布局一定要簡潔,所有的鏈接都是標準的HTML文本,并且要盡可能多的包含關鍵字
不要使用圖片來做網站地圖里的鏈接,這樣蜘蛛就不能跟隨了。一定要使用標準的HTML文本來做鏈接,鏈接中要包括盡可能多的目標關鍵字。
3. 盡量在站點地圖上增加文本說明
增加文本會給蜘蛛提供更加有索引價值的內容,以及有關內容的更多線索。
4. 在每個頁面里面放置網站地圖的鏈接
用戶一般會期望每個頁面的底部都有一個指向網站地圖的鏈接,你可以充分利用人們的這一習慣。如果網站有一個搜索欄的話,那么可以在這個搜索欄的附近增加一個指向網站地圖的鏈接,甚至可以在搜索結果頁面的某個固定位置放置網站地圖的鏈接。
5.確保網站地圖里的每一個鏈接都是正確、有效的
如果在網站地圖里出現的鏈接是壞鏈和死鏈,對搜索引擎的影響是非常不好的。如果鏈接比較少,你可以把所有的鏈接都點一遍,以確保每一個鏈接是有效的。如果鏈接比較多,可以使用一些鏈接檢查工具來檢測。
6.可以把sitemap寫進robots.txt里
在引擎爬蟲進來抓取網頁的時候,會首先查看robots.txt、如果首先把sitemap寫進robots.txt里那么在效率上會大大提高,從而獲得SEM的好感。
生成提交網上有很多sitemap地圖生成的方法,比如在線生成、軟件生成等,sitemap地圖可以提交給各大搜索引擎,從而使搜索引擎更好的對網站頁面進行收錄,我們也可以通過robots.txt來告訴搜索引擎地圖的位置。將制作好的網站地圖上傳至網站根目錄下,最關鍵是把網站地圖鏈接地址加入在robots文件中以及做好網站地圖在頁面方便蜘蛛抓取的位置,一般把網站地圖放在頁眉和頁腳位置。
1.普通Html格式的網站地圖
它的目的是幫助用戶對站點的整體有個把握。Html格式的網站地圖根據網站結構特征制定,盡量把網站的功能結構和服務內容富有條理地列出來。一般來說,網站首頁有一個鏈接指向該格式的網站地圖。
2.XML Sitemap 通常稱為Sitemap(首字母大寫 S)。簡單來講,Sitemap 就是網站上鏈接的列表。制作Sitemap,并提交給搜索引擎可以使網站的內容完全被收錄,包括那些隱藏比較深的頁面。這是一種網站與搜索引擎對話的好方式。
3.搜索引擎識別的地圖
因為每個搜索引擎主要識別地圖格式效果不同,建議分別采用以下格式:
百度:建議使用Html格式的網站地圖
Google:建議使用Xml格式的網站地圖
作用
1、搜索引擎每天都是讓蜘蛛在互聯網爬行來抓取頁面,網站地圖的作用就是給蜘蛛爬行構造了一個方便快捷的通道,因為網站頁面是一層一層的鏈接的,其中可能會存在死鏈接的情況,如果沒有網站地圖,蜘蛛爬行在某個頁面就因死鏈接爬行不了,那么就不能收錄那些斷鏈接的頁面,更別說快速的收錄了!
2、網站地圖的存在不僅是滿足搜索引擎蜘蛛的查看,更多是方便網站訪客來瀏覽網站,特別是例如門戶型網站由于信息量太多很多訪客都是通過網站地圖來尋找到自己需要的信息頁面,這也能很好的提高用戶體驗度
3、網站地圖可以提高鏈接頁面的權重,因為網站地圖是指向其他頁面的鏈接,此時網站地圖就給頁面增加了導入鏈接,大家知道導入鏈接的增加會影響到頁面的權重,從而提高頁面的權重,頁面權重的提高同時會提高頁面的收錄率。
怎樣創建
1、在網站地圖的文本和超級鏈接里提及最主要的關鍵詞短語,幫助搜索引擎來識別,所鏈接的頁面主題是什么。
2、為每一個鏈接提供一個簡短的介紹,以提示訪問者這部分內容是關于哪方面的。
3、提供文本鏈接到你站點上最主要的頁面上;根據您的網站大小,網頁數目的多少,它甚至可以鏈接到您所有的頁面。
4、為搜索引擎提供一條綠色通道,使搜索引擎程序把您的主要網頁迅速收錄進去。
5、當用戶查尋在您網站上原來看過的相關信息時,告訴他們如何去查詢。只要在這一個網頁內就可以得到所有希望查找的內容鏈接。
6、幫助搜索引擎輕松索引一些動態頁面。由于一些頁面將是動態產生,如果不是用戶行為調用,將不會顯示出來,您可以將此鏈接放在您的網站地圖上,以幫助搜索引擎來索引您重要的動態頁面。
7、建立網站地圖后,當訪問者訪問網站時,可以輕松找到他們所需要的內容;當搜索引擎蜘蛛爬行網站時,可以快速訪問整個站點。為了使網站地圖吸引網絡蜘蛛與訪問者,一定要在鏈接后寫上一定的描述性的短句和與此鏈接相關的關鍵詞,切記不要使用過多的關健詞。當訪問者感覺到地圖好用時,搜索引擎也同樣能正確地理解地圖的意義。不管網站的大小,頁面的多少,給網站添加一個網站地圖,是非常必要的。