搜索引擎按采集內(nèi)容

  

  

搜索引擎按采集內(nèi)容包括反采集分類器構(gòu)建模塊、自動采集識別模塊和反采集在線處理模塊。


搜索引擎按采集內(nèi)容


反采集分類器構(gòu)建模塊主要用于使用計算機程序?qū)v史的web信息自動采集和正常的網(wǎng)頁訪問行為進行學習并區(qū)分,自動采集識別模塊,通過運用上述步驟中的反采集分類器,自動識別出搜索引擎程序的自動采集行為,并將識別出的采集程序所處的IP段加入黑名單。


反采集在線處理模塊主要用于對訪問的用戶進行自動在線判定和處理。搜索引擎采集克服了現(xiàn)有技術(shù)的不足,該系統(tǒng)通過分析網(wǎng)站的歷史網(wǎng)頁訪問行為,建立自動采集分類器,識別出機器人的自動采集,通過自動機器人采集識別,實現(xiàn)網(wǎng)頁反抓取。

  
相關(guān)資訊

推薦軟件