在計算機和在線應用程序中,停止詞是在處理某種類型的文本時被過濾掉的單詞,例如在啟動在線搜索的過程中。這種類型的過濾被稱為自然語言處理或NLP的一個組成部分,其思想是通過省略請求。相反,搜索引擎使用一個簡單的標記...
在計算機和在線應用程序中,停止詞是在處理某種類型的文本時被過濾掉的單詞,例如在啟動在線搜索的過程中。這種類型的過濾被稱為自然語言處理或NLP的一個組成部分,其思想是通過省略請求。相反,搜索引擎使用一個簡單的標記來記錄文本字符串中單詞的存在,但并不阻止該標記將該頁面包含在搜索結果中。手持計算機的人了解停止詞如何使搜索引擎的功能復雜化的一種方法是考慮到在進行搜索時,該引擎將考慮用戶提交的搜索請求中包含的每個單詞。作為該考慮的一部分,引擎將查找包含每個單詞的頁面。這意味著,如果搜索請求包含三個單詞,則引擎將在Internet上進行三次掃描,最終將包含所有三個單詞的頁面作為優先級例如,搜索“山上的房子”需要引擎搜索序列中的每個單詞,有些人甚至在停止詞“the”上運行兩次搜索。這會占用時間和資源,而這些時間和資源可能會被轉移到其他最終用戶正在進行的其他關鍵字搜索中。在搜索過程中使用標記替換“the”和“on”,引擎可以投入較少的資源,但仍然返回很可能滿足最終用戶要求的結果。雖然停止字有時也被稱為毒詞,在用于搜索的文本中包含詞條確實沒有什么特別的錯誤。在搜索請求中使用一個或多個停止詞可能會使搜索引擎在檢索符合搜索條件的數據時的索引過程復雜化不過,最終用戶不太可能在最終返回的信息提取上看到太大的差異。沒有一個所有搜索引擎都普遍使用的硬而快速的停止詞列表。事實上,有些搜索引擎根本不使用任何類型的停止詞列表作為自然語言處理任務的一部分,而另一些搜索引擎則會充分利用停止詞列表來更有效地分配資源,同時仍然返回準確的搜索引擎結果,并且可能非常適合任何使用特定引擎的人提交的搜索請求
-
發表于 2020-08-07 08:57
- 閱讀 ( 816 )
- 分類:電腦網絡