主要系統有TRS系統、天宇系統等。
與其他搜索引擎相比,全文搜索引擎的顯著特點是它可以將文本中任何有意義的詞作為檢索條目,並且檢索結果是原始文檔,而不是文檔線索。
隨著計算機行業的發展,基於計算機存儲設備的電子信息越來越多。這些信息大致可以分為兩類:結構化數據和非結構化數據。結構化數據是指企業的財務賬目和生產數據、學生的分數數據等。,而非結構化數據是指多媒體數據,如文本數據、圖像和聲音等。據統計,非結構化數據占總信息量的80%以上。對於結構化數據,RDBMS(關系數據庫管理系統)技術是目前管理結構化數據的最佳方法。然而,由於RDBMS本身的底層結構,它在管理大量非結構化數據方面有些欠缺,尤其是查詢這些海量非結構化數據的速度較慢。並且通過全文檢索技術,可以對這些非結構化數據進行高效管理。
經過幾年的發展,全文檢索已經從最初的字符串匹配程序發展成為可以全面管理超大文本、語音、圖像和運動圖像等非結構化數據的大型軟件。由於內涵和外延的深刻變化,全文檢索系統已成為新壹代管理信息系統的代名詞,衡量全文檢索系統的基本指標也逐漸形成規範。
首先,我們關註的是查全率,即進行某壹次檢索時,系統檢索到的相關材料量與系統數據庫中相關材料總量的比值。精確度是確保我們找到最有用的材料的壹個關鍵,它是系統檢索到的有用材料的數量與檢索到的材料總數的比率。檢索速度或響應時間是提高工作效率的保證,是指從提交檢索主題到找出數據結果所需的時間。最基本的檢索速度應該是“千萬漢字、秒級響應”。還有收錄範圍(被搜索的範圍)、用戶負擔(用戶在檢索過程中的努力總和)和輸出形式(輸出信息的表達形式)等指標,這些也是衡量全文檢索系統質量的因素。
搜索引擎應該是全文檢索技術最重要的應用。目前,搜索引擎的使用已成為僅次於收發電子郵件的第二大互聯網應用技術。搜索引擎起源於傳統的信息全文檢索理論,即計算機程序掃描每篇文章中的每個詞,建立逐詞文件,檢索程序根據每個搜索詞在每篇文章中出現的頻率和概率對包含這些搜索詞的文章進行排序,並最終輸出排序結果。全文檢索技術是搜索引擎的核心支撐技術。
壹個好的搜索引擎是壹個理想網站的關鍵。許多人在訪問網站時喜歡使用網站檢索。網站檢索應該是分類目錄導航和全文檢索的完美結合,包括以下幾個方面:
分類目錄導航的關鍵是搜索範圍,搜索範圍的限制可以使搜索結果不至於太多太過分;
全文檢索對於網站檢索至關重要,它可以幫助人們在正常情況下快速找到所需的網頁。
有時使用分類目錄導航和全文檢索難以定位所需信息,因此需要結合檢索輔助;
必須有相關的排序功能,因為當搜索結果太多時,用戶無法逐壹瀏覽。大多數用戶只瀏覽前幾項,沒有相關的排序。也許準確的搜索結果排在後面,用戶無法瀏覽,但頂部的搜索結果幾乎沒有相關性,造成用戶的錯覺。
此外,還應考慮HTML/XML的特殊性、對大量並發用戶突然訪問的支持、網站的動態特性以及索引維護的高效性。
目前有Lucene、Solr、ElasticSearch等。全文檢索過程分為兩個過程:索引和搜索:
索引
從關系數據庫、互聯網和文件系統中收集源數據(要搜索的目標信息)。源數據的來源非常廣泛。
在壹個統壹的位置收集源數據,例如存儲系統。要創建索引,請在索引庫(文件系統)中創建索引,從源數據庫中提取關鍵信息,並從關鍵信息中提取壹個單詞。單詞與源數據相關。也就是說,當創建索引時,單詞與源數據相關聯,並且這種關聯記錄在索引數據庫中。如果找到壹個單詞,則意味著源數據(http網頁、電子書、新聞等。)已經找到了。
搜索(搜索)
用戶執行搜索(全文檢索)並編寫查詢關鍵字。
從索引數據庫中搜索索引,並根據查詢關鍵字壹個單詞壹個單詞地搜索索引數據庫。
顯示搜索結果。