全文搜索引擎采集

  

  

全文搜索引擎采集,尤其是中文全文檢索技術(shù)的研究始于1987年左右,已經(jīng)有一些商品化的軟件。Internet的普及使得全文檢索技術(shù)日益成熟起來,其應(yīng)用已突破傳統(tǒng)的情報(bào)部門和信息中心的局限性,使該技術(shù)的最廣大用戶變成互聯(lián)網(wǎng)的用戶和桌面用戶,而不再僅局限于情報(bào)檢索專家。


全文搜索引擎采集


全文檢索技術(shù)以各類數(shù)據(jù)如文本、聲音、圖像等為對象,提供按數(shù)據(jù)的內(nèi)容而不是外在特征來進(jìn)行的信息檢索,其特點(diǎn)是能對海量的數(shù)據(jù)進(jìn)行有效管理和快速檢索。


它是搜索引擎的核心技術(shù),同時(shí)也是電子商務(wù)網(wǎng)站的支撐技術(shù)。全文檢索技術(shù)可應(yīng)用于企業(yè)信息網(wǎng)站、媒體網(wǎng)站、政府站點(diǎn)、商業(yè)網(wǎng)站、數(shù)字圖書館和搜索引擎中。我們知道,企業(yè)信息化是電子商務(wù)的基礎(chǔ),企業(yè)建立自己的商務(wù)站點(diǎn),構(gòu)建企業(yè)內(nèi)部信息發(fā)布平臺,并與其他網(wǎng)站間建立安全的信息發(fā)布通道和交換通道,建立電子商務(wù)的應(yīng)用并以數(shù)據(jù)為中心建立應(yīng)用平臺等方面都離不開全文檢索。


該檢索技術(shù)可跨越所有的數(shù)據(jù)源,支持多種數(shù)據(jù)和信息格式,對檢索結(jié)果可按商業(yè)分類規(guī)則進(jìn)行排列,也能滿足用戶特定的知識檢索請求,將所有不同信息查詢中的命中結(jié)果按相關(guān)性或分類排列,提供不同格式的信息瀏覽功能。


從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如Google、Fast/AllThe Web、AltaVista、Inktomi、Teoma、WiseNut、百度等;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。

  
相關(guān)資訊

推薦軟件