av网站免费线看精品_国产做a爱视频免费不_深爱激情网开心五月天_伊人五月天在线视频网

 
搜索引擎技術(shù)核心揭密
發(fā)布時間:2005-03-31   瀏覽次數(shù):1229187
編者按:這是一篇精彩的編程教學(xué)文章,不但詳細地剖析了搜索引擎的原理,也提供了筆者自己對使用PHP編制搜索引擎的一些思路。整篇文章深入淺出,相信無論是高手還是菜鳥,都能從中得到不少的啟發(fā)。   談到網(wǎng)頁搜索引擎時,大多數(shù)人都會想到雅虎。的確,雅虎開創(chuàng)了一個互聯(lián)網(wǎng)絡(luò)的搜索時代。然而,雅虎目前用于搜索網(wǎng)頁的技術(shù)卻并非該公司原先自己開發(fā)的。00年8月,雅虎采用了Google(www.google.com)這家由斯坦福大學(xué)學(xué)生創(chuàng)建的風(fēng)險公司的技術(shù)。理由非常簡單,Google的搜索引擎比雅虎先前使用的技術(shù)能更快、更準確搜索到所需要的信息。   讓我們自己來設(shè)計、開發(fā)一個強勁、的搜索引擎和數(shù)據(jù)庫恐怕短時間內(nèi)在技術(shù)、資金等方面是不可能的,不過,既然雅虎都在使用別人的技術(shù),那么我們是不是也可以使用別人現(xiàn)成的搜索引擎網(wǎng)站呢? 剖析編程思路   我們可以這樣設(shè)想:模擬一個查詢,向某個搜索引擎網(wǎng)站發(fā)出相應(yīng)格式的搜索命令,然后傳回搜索結(jié)果,對結(jié)果的HTML代碼進行分析,剝離多余的字符和代碼,按所需要的格式顯示在我們自己的網(wǎng)站頁面里。   這樣,問題的關(guān)鍵在于,我們要選定一個搜索信息準確(這樣我們的搜索才會更有意義。、速度快(因為我們分析搜索結(jié)果并顯示需要額外的時間),搜索結(jié)果簡潔(便于進行HTML源代碼分析和剝離)的搜索網(wǎng)站,由于新一代搜索引擎Google的各種優(yōu)良特性,這里我們選擇它為例,來看看用PHP怎樣實現(xiàn)后臺對Google(www.google.com)搜索、前臺個性化顯示這一過程。   我們先來看看Google的查詢命令的構(gòu)成。進入www.google.com網(wǎng)站,在查詢欄中輸入“abcd”,點擊查詢按鈕,我們可以發(fā)現(xiàn)瀏覽器的地址欄變成:"http://www.google.com/search?q=abcd&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=",可見,Google是通過表單的get方式來傳遞查詢參數(shù)并遞交查詢命令的。我們可以使用PHP中的file()函數(shù)來模擬這個查詢過程。 了解File()函數(shù)   語法: array file(string filename);   返回值為數(shù)組,將文件全部讀入數(shù)組變量中。這里的文件可以是本地的,也可以是遠程的,遠程文件必須指明所使用的協(xié)議。例如: result=file(“http://www.google.com/search?q=abcd&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=”),該語句將模擬我們在Google上查詢單詞“abcd”的過程,并將搜索結(jié)果以每行為元素,傳回到數(shù)組變量 result中。因為這里讀取的文件是遠程的,所以協(xié)議名“http://”不能缺少。   如果要讓用戶輸入搜索字符進行任意搜索,我們可以做一個輸入文本框和提交按鈕,并將上文中的被搜索字符“abcd”用變量替換:
立即預(yù)約