我們用戶經(jīng)常瀏覽網(wǎng)頁,就是打開瀏覽器,輸入網(wǎng)址,最后看到網(wǎng)站內(nèi)容。然而搜索引擎是怎么工作的呢。是不是和我們看網(wǎng)頁有區(qū)別呢。下面我們具體分析一下。
所謂網(wǎng)絡(luò)爬蟲,也叫網(wǎng)絡(luò)蜘蛛,它是一種程序,能自動取得網(wǎng)站內(nèi)容的程序,通過將內(nèi)容存進(jìn)搜索引擎系統(tǒng),然后根據(jù)分析,以數(shù)據(jù)庫的形似分門別類的建立索引,方便用戶檢索到這個網(wǎng)頁。這就是爬蟲。
爬蟲通過漫游的形式進(jìn)行抓取,爬蟲爬到一個頁面后,看到一個鏈接,然后順著那個鏈接又爬到另外一個頁面,爬蟲是不停的從一個頁面跳到另外一個頁面的,它一邊下載這個網(wǎng)頁,一邊在提取這個網(wǎng)頁中的鏈接,那個頁面上所有的鏈接都放在一個公用的“待抓取列表”里。而且爬蟲有個特點(diǎn),就是他在訪問你網(wǎng)站之前,不去做判斷你這個網(wǎng)頁本身怎么樣的,不對網(wǎng)頁內(nèi)容判斷就抓取,但是會有優(yōu)先級的劃分,盡可能不抓重復(fù)的內(nèi)容,盡量抓重要內(nèi)容(比如網(wǎng)站的公共部分)。
搜索引擎同時會派出多個爬蟲進(jìn)行多線程的抓取,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)儲存,進(jìn)行一定的分析、過濾(去重),并建立索引,以便之后的查詢和檢索。
濟(jì)南網(wǎng)站優(yōu)化:http://m.mahangsq.com/