Google通過(guò)提交表單抓取新頁(yè)面
Google通過(guò)提交表單抓取新頁(yè)面
Google雖然已經(jīng)是抓取頁(yè)面最多的搜索引擎,但還是不滿足,因?yàn)橛泻芏嗑W(wǎng)頁(yè)和信息是很難被發(fā)現(xiàn)和抓取的。這也是為什么做網(wǎng)站時(shí)一定要注意搜索引擎友好。
現(xiàn)在Google開(kāi)始提供提交表單(form)發(fā)現(xiàn)其后的網(wǎng)頁(yè)。本想寫(xiě)個(gè)詳細(xì)說(shuō)明,剛好看到幻滅已經(jīng)寫(xiě)了,直接引用主要內(nèi)容如下。
之前我們已經(jīng)知道Googlebot除了能抓取文本、視頻、音頻、Flash等類(lèi)型的內(nèi)容外,它還可以通過(guò)JS代碼抓取鏈接。并且在未來(lái),Googlebot還有望直接識(shí)別圖片及視頻里的文字。為了進(jìn)一步抓取互聯(lián)網(wǎng)的內(nèi)容,Google宣布Googlebot已可通過(guò)提交表格抓取更多內(nèi)容。
據(jù)Google所述,當(dāng)前Googlebot正對(duì)一小部分高質(zhì)量網(wǎng)站進(jìn)行表格提交的試驗(yàn)。當(dāng)Googlebot發(fā)現(xiàn)這些網(wǎng)站上有HTML表格時(shí)(即檢測(cè)到時(shí)),它會(huì)自動(dòng)從網(wǎng)站上選擇一些詞語(yǔ)輸入表格的文本框里,然后再選擇不同的按鈕、勾選項(xiàng)及驗(yàn)證項(xiàng),再提交表格。提交表格后一旦 Googlebot認(rèn)為出現(xiàn)的新內(nèi)容是合法并且是有趣及獨(dú)特的,它可能會(huì)把內(nèi)容抓取進(jìn)Google的搜索結(jié)果索引數(shù)據(jù)庫(kù)里。這意味著Googlebot 現(xiàn)在已經(jīng)懂得通過(guò)提交表格而獲得新內(nèi)容。
同時(shí)Google也強(qiáng)調(diào),如果網(wǎng)站的robots.txt文件里禁止了對(duì)表格進(jìn)行了隱藏,不希望表格提交后所產(chǎn)生的鏈接被抓取,那Googlebot 是不會(huì)抓取的。此外,當(dāng)前Googlebot只提交GET類(lèi)型的表格。比如當(dāng)表格需要輸入用戶個(gè)人信息比如密碼、用戶名、聯(lián)系人等,Googlebot是 會(huì)自動(dòng)略過(guò)這些表格的。
這種表格抓取當(dāng)前只是一個(gè)小范圍的試驗(yàn),Google表示不會(huì)對(duì)網(wǎng)站造成影響。既不會(huì)對(duì)網(wǎng)站的PR值造成影響,也不會(huì)對(duì)網(wǎng)站的正常抓取、排名等造成影響。
Matt Cutts也寫(xiě)了個(gè)帖子舉例說(shuō)明這么做的好處。有很多網(wǎng)站首頁(yè)只是以表單方式列出公司下屬的各地區(qū)分站,沒(méi)有以鏈接形式列出各分站。這種網(wǎng)站以前是不能被深度收錄的,因?yàn)镚oogle不提交表單,發(fā)現(xiàn)不了隱藏在表單后面的URL。
這當(dāng)然給一些網(wǎng)站的收錄創(chuàng)造了機(jī)會(huì),是否也會(huì)對(duì)某些公司網(wǎng)站帶來(lái)一定的風(fēng)險(xiǎn)?網(wǎng)站某部分不想被收錄的話,趕緊用robots.txt文件禁止吧。