660
shares
聚米幫你連接全球客戶
服務熱線:400-8817-968
發(fā)布于:2019-10-14
Googlebot僅遵循特定的命令,忽略表格和cookie,僅對正確編碼的鏈接進行爬網(wǎng)。因此,站點建設中的錯誤和疏忽會影響對其進行爬網(wǎng)和建立索引的能力。
很自然地假設搜索引擎可以訪問人們在網(wǎng)站上看到的所有內(nèi)容。但是事實并非如此。
據(jù)報道,Googlebot可以填寫表格,接受Cookie并抓取所有類型的鏈接。但是訪問這些元素將消耗看似無限的爬網(wǎng)和索引資源。
因此,Googlebot僅遵循某些命令,忽略表單和cookie,僅爬網(wǎng)使用適當?shù)腶nchor標簽和href編碼的鏈接。
以下是阻止Googlebot和其他搜索引擎機器人抓?。ê途幹扑饕┠芯W(wǎng)頁的七個項目。
1.基于位置的頁面
具有支持區(qū)域設置的頁面的站點會檢測訪問者的IP地址,然后根據(jù)該位置顯示內(nèi)容。但這不是萬無一失的。比如:訪客的IP似乎在波士頓,即使她住在紐約也是如此。因此,她會收到她不想要的有關波士頓的內(nèi)容。
Googlebot的默認IP來自加利福尼亞州圣何塞地區(qū)。因此,Googlebot僅會看到與該地區(qū)相關的內(nèi)容。
首次進入站點時基于位置的內(nèi)容很好。但是后續(xù)內(nèi)容應基于單擊的鏈接,而不是IP地址。
有機搜尋成功的無形障礙是最難發(fā)現(xiàn)的障礙之一。
2.基于Cookie的內(nèi)容
網(wǎng)站將cookie放置在Web瀏覽器上,以個性化訪問者的體驗,例如語言首選項或渲染面包屑的單擊路徑。訪問者只能通過Cookie,而不是單擊鏈接來訪問的內(nèi)容將無法被搜索引擎機器人訪問。
例如,某些站點基于cookie提供國家和語言內(nèi)容。如果您訪問在線商店并選擇以法語閱讀,則會設置一個cookie,而您在網(wǎng)站上的其余訪問都將以法語進行。URL與網(wǎng)站使用英語時的URL相同,但是內(nèi)容不同。
網(wǎng)站所有者大概希望法語內(nèi)容在自然搜索中排名,以將講法語的人帶到該網(wǎng)站。但是不會。如果URL不會隨著內(nèi)容的更改而改變,那么搜索引擎將無法抓取或排名其他版本。
3.不可抓取的JavaScript鏈接
對于Google來說,鏈接不是鏈接,除非它同時包含錨標記和指向特定URL 的href。錨文本也是可取的,因為它可以確定鏈接到的頁面的相關性。
下面的假設標記著重說明了可抓取鏈接和不可抓取鏈接與Googlebot的區(qū)別:“將被抓取”與“不被抓取”。
Google要求鏈接同時包含錨標記和指向特定URL 的href。在此示例中,Googlebot將抓取第一行和第四行。但是它不會爬第二和第三。
電子商務網(wǎng)站傾向于使用onclick(指向其他頁面的鼠標懸停下拉菜單)而不是錨標記來編碼其鏈接。雖然這種方法適用于人類,但Googlebot不會將其識別為可抓取的鏈接。因此,以這種方式鏈接的頁面可能存在索引問題。
4.標簽網(wǎng)址
AJAX是一種JavaScript形式,可以刷新內(nèi)容而無需重新加載頁面。刷新后的內(nèi)容會在頁面的URL中插入井號(井號:#)。不幸的是,#標簽并不總是在以后的訪問中復制預期的內(nèi)容。如果搜索引擎將主題標簽URL編入索引,則內(nèi)容可能不是搜索者正在尋找的內(nèi)容。
雖然大多數(shù)搜索引擎優(yōu)化人員都了解標簽標簽URL固有的索引問題,但營銷人員通常會驚訝地發(fā)現(xiàn)其URL結(jié)構(gòu)的這一基本要素正在引起自然搜索麻煩。
5. Robots.txt 不允許
robots.txt文件是網(wǎng)站根目錄下的原始文本文檔。它告訴機器人(選擇服從)通常通過disallow命令來爬網(wǎng)哪些內(nèi)容。
Disallow命令不會阻止建立索引。但是由于機器人無法確定頁面的相關性,它們可以阻止頁面排名。
禁止命令可能會意外出現(xiàn)在robots.txt文件中(例如,重新設計實時發(fā)布時),從而阻止搜索機器人抓取整個網(wǎng)站。robots.txt文件中存在禁止對象是檢查自然搜索流量突然下降的第一件事。
6. Meta Robots Noindex
URL的meta標簽的noindex屬性指示搜索引擎機器人不要對該頁面進行索引。它是逐頁應用的,而不是用于管理整個站點的單個文件,例如disallow命令。
但是,noindex屬性比禁止索引更強大,因為它們會停止索引。
像禁止命令一樣,noindex屬性可能會意外地實時上線。它們是最難發(fā)現(xiàn)的阻止者之一。
7.不正確的規(guī)范標簽
規(guī)范標簽可識別要從多個相同版本中索引的頁面。規(guī)范標簽是防止重復內(nèi)容的重要武器。所有非規(guī)范頁面將其鏈接權限(鏈接到它們的頁面?zhèn)鬟_的值)歸因于規(guī)范URL。非規(guī)范頁面未編制索引。
規(guī)范標簽隱藏在源代碼中。錯誤可能很難發(fā)現(xiàn)。如果您網(wǎng)站上的所需網(wǎng)頁未編入索引,則可能是錯誤的規(guī)范標簽。
評論展示
660
shares