成品人精品区二区 四虎免费一区二区 欧美在线观看一区 欧美成人在线

1531瀏覽量

Spider抓取系統(tǒng)的基本框架

來源: 時間:2016-02-09

互聯(lián)網(wǎng)信息爆發(fā)式增長,如何有效的獲取并利用這些信息是搜索引擎工作中的首要環(huán)節(jié)。數(shù)據(jù)抓取系統(tǒng)作為整個搜索系統(tǒng)中的上游,主要負(fù)責(zé)互聯(lián)網(wǎng)信息的搜集、保存、更新環(huán)節(jié),它像蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此通常會被叫做“spider”。例如我們常用的幾家通用搜索引擎蜘蛛被稱為:Baiduspdier、Googlebot、Sogou Web Spider等。

Spider抓取系統(tǒng)是搜索引擎數(shù)據(jù)來源的重要保證,如果把web理解為一個有向圖,那么spider的工作過程可以認(rèn)為是對這個有向圖的遍歷。從一些重要的種子 URL開始,通過頁面上的超鏈接關(guān)系,不斷的發(fā)現(xiàn)新URL并抓取,盡最大可能抓取到更多的有價值網(wǎng)頁。對于類似百度這樣的大型spider系統(tǒng),因?yàn)槊繒r 每刻都存在網(wǎng)頁被修改、刪除或出現(xiàn)新的超鏈接的可能,因此,還要對spider過去抓取過的頁面保持更新,維護(hù)一個URL庫和頁面庫。

下圖為spider抓取系統(tǒng)的基本框架圖,其中包括鏈接存儲系統(tǒng)、鏈接選取系統(tǒng)、dns解析服務(wù)系統(tǒng)、抓取調(diào)度系統(tǒng)、網(wǎng)頁分析系統(tǒng)、鏈接提取系統(tǒng)、鏈接分析系統(tǒng)、網(wǎng)頁存儲系統(tǒng)。Baiduspider即是通過這種系統(tǒng)的通力合作完成對互聯(lián)網(wǎng)頁面的抓取工作。

聯(lián)系我們

一次需求提交或許正是成就一個出色產(chǎn)品的開始。
歡迎填寫表格或發(fā)送合作郵件至: qczsky@126.com

大理青橙科技

電話:13988578755 13988578755

郵箱:qczsky@126.com

地址:大理市下關(guān)龍都春天10層

如果您無法識別驗(yàn)證碼,請點(diǎn)圖片更換

清新县| 凉山| 易门县| 靖远县| 武川县| 台安县| 兴和县| 乌拉特前旗| 景泰县| 乃东县| 龙里县| 珠海市| 平原县| 福建省| 南安市| 溧水县| 两当县| 镇远县| 仁化县| 尚志市| 东乡| 黑水县| 诏安县| 宁强县| 高州市| 枣强县| 都江堰市| 五莲县| 芮城县| 宜昌市| 永和县| 北流市| 文水县| 西华县| 个旧市| 乐东| 嘉定区| 嘉禾县| 拜城县| 崇礼县| 通化市|