全文搜索引擎采集

2022-12-05 14:08:40 來源：www.dadiqinye.com

全文搜索引擎采集，尤其是中文全文檢索技術(shù)的研究始于1987年左右，已經(jīng)有一些商品化的軟件。Internet的普及使得全文檢索技術(shù)日益成熟起來，其應(yīng)用已突破傳統(tǒng)的情報(bào)部門和信息中心的局限性，使該技術(shù)的最廣大用戶變成互聯(lián)網(wǎng)的用戶和桌面用戶，而不再僅局限于情報(bào)檢索專家。

全文搜索引擎采集

全文檢索技術(shù)以各類數(shù)據(jù)如文本、聲音、圖像等為對象，提供按數(shù)據(jù)的內(nèi)容而不是外在特征來進(jìn)行的信息檢索，其特點(diǎn)是能對海量的數(shù)據(jù)進(jìn)行有效管理和快速檢索。

它是搜索引擎的核心技術(shù)，同時(shí)也是電子商務(wù)網(wǎng)站的支撐技術(shù)。全文檢索技術(shù)可應(yīng)用于企業(yè)信息網(wǎng)站、媒體網(wǎng)站、政府站點(diǎn)、商業(yè)網(wǎng)站、數(shù)字圖書館和搜索引擎中。我們知道，企業(yè)信息化是電子商務(wù)的基礎(chǔ)，企業(yè)建立自己的商務(wù)站點(diǎn)，構(gòu)建企業(yè)內(nèi)部信息發(fā)布平臺，并與其他網(wǎng)站間建立安全的信息發(fā)布通道和交換通道，建立電子商務(wù)的應(yīng)用并以數(shù)據(jù)為中心建立應(yīng)用平臺等方面都離不開全文檢索。

該檢索技術(shù)可跨越所有的數(shù)據(jù)源，支持多種數(shù)據(jù)和信息格式，對檢索結(jié)果可按商業(yè)分類規(guī)則進(jìn)行排列，也能滿足用戶特定的知識檢索請求，將所有不同信息查詢中的命中結(jié)果按相關(guān)性或分類排列，提供不同格式的信息瀏覽功能。

從搜索結(jié)果來源的角度，全文搜索引擎又可細(xì)分為兩種，一種是擁有自己的檢索程序(Indexer)，俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序，并自建網(wǎng)頁數(shù)據(jù)庫，搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用，如Google、Fast/AllThe Web、AltaVista、Inktomi、Teoma、WiseNut、百度等;另一種則是租用其他引擎的數(shù)據(jù)庫，并按自定的格式排列搜索結(jié)果，如Lycos引擎。

上一條：搜索引擎內(nèi)容采集

下一條：搜索引擎推薦詞采集

相關(guān)資訊