搜索引擎大數(shù)據(jù)采集方法

  

  

下面一米軟件來(lái)給大家分享一下搜索引擎大數(shù)據(jù)采集方法:


搜索引擎大數(shù)據(jù)采集方法


數(shù)據(jù)爬取流程


數(shù)據(jù)抓取


爬蟲(chóng)不同于人類(lèi)用戶,他們“看到”的網(wǎng)頁(yè)信息為頁(yè)面代碼(保護(hù)html、css、js等),但是這些信息中真正有價(jià)值的可能只有文章的標(biāo)題、作者、發(fā)布時(shí)間等內(nèi)容,所以爬蟲(chóng)往往會(huì)在頁(yè)面抓取和下載之后,將頁(yè)面中有價(jià)值的信息初步提取和解析出來(lái),再轉(zhuǎn)發(fā)給后續(xù)的信息解析和存儲(chǔ)等服務(wù)。


常見(jiàn)的數(shù)據(jù)預(yù)處理可能會(huì)包含:


url/頁(yè)面信息分析,用以確定該url/頁(yè)面是否有抓取價(jià)值


頁(yè)面信息下載,將頁(yè)面里的數(shù)據(jù)下載下來(lái)進(jìn)行分析



目標(biāo)內(nèi)容提取,從整個(gè)頁(yè)面的標(biāo)簽組里把目標(biāo)內(nèi)容解析出來(lái),構(gòu)建成結(jié)構(gòu)化的數(shù)據(jù)傳給下游系統(tǒng)。


頁(yè)面信息上報(bào),用來(lái)記錄自己的運(yùn)行記錄,方便后續(xù)的工作控制、頁(yè)面去重等需要


數(shù)據(jù)清洗和解析


后端服務(wù)收到爬蟲(chóng)抓取的結(jié)構(gòu)化數(shù)據(jù)之后,會(huì)進(jìn)行數(shù)據(jù)的一步清洗和解析,主要包含數(shù)據(jù)的轉(zhuǎn)碼、解碼,不合理信息剔除、有效信息提取、內(nèi)容分析打標(biāo)簽等。


數(shù)據(jù)存儲(chǔ)


結(jié)構(gòu)化數(shù)據(jù)在經(jīng)過(guò)了解析之后,會(huì)通過(guò)相關(guān)服務(wù)轉(zhuǎn)發(fā)給不同的存儲(chǔ)系統(tǒng)進(jìn)行保存,保存的信息主要包含數(shù)據(jù)源、url、標(biāo)題正文、發(fā)布時(shí)間、多媒體地址、標(biāo)簽等內(nèi)容。


同時(shí),為了保證數(shù)據(jù)存取的效率,也會(huì)針對(duì)數(shù)據(jù)的時(shí)間、種類(lèi)等屬性進(jìn)行規(guī)劃,最后存入不同的存儲(chǔ)集群和解決方案。


數(shù)據(jù)索引


在數(shù)據(jù)存儲(chǔ)時(shí),為了能對(duì)數(shù)據(jù)進(jìn)行快速的搜索,系統(tǒng)會(huì)嘗試對(duì)數(shù)據(jù)進(jìn)行索引。索引中與數(shù)據(jù)抓取關(guān)系較大的主要是對(duì)數(shù)據(jù)/信息去重的部分,主要體現(xiàn)為對(duì)原地址、頁(yè)面內(nèi)容等的編碼,以及對(duì)資源metadata的建模。

  
相關(guān)資訊

推薦軟件