搜索引擎是一種計算機程序,它可以根據用戶定義的特定標準從數據庫中檢索信息。現代搜索引擎搜索的數據庫中包含大量數據,這些數據來自萬維網、新聞組, 現代搜索引擎梳理了包含大量數據的數據庫,這些數據來自萬維網、新聞...
搜索引擎是一種計算機程序,它可以根據用戶定義的特定標準從數據庫中檢索信息。現代搜索引擎搜索的數據庫中包含大量數據,這些數據來自萬維網、新聞組,

現代搜索引擎梳理了包含大量數據的數據庫,這些數據來自萬維網、新聞組,在萬維網出現之前,但在互聯網的出現和隨后在大學校園里的普及之后,第一個搜索引擎誕生了。在歷史上的這個時候,在20世紀80年代末和90年代初,互聯網上使用的主要協議之一就是文件傳輸協議(FTP)FTP服務器遍布世界各地,通常在大學校園、研究機構,蒙特利爾麥吉爾大學(McGill University)的一些學生認為,在各種流行的FTP服務器上建立一個集中的文件數據庫將有助于節省時間,并為其他人提供優質的服務。這就是Archie搜索引擎的起源。
Archie,它是archive的縮寫,是一個定期登錄到其列表中的FTP服務器的程序,并對服務器上的文件進行索引。由于處理器時間和帶寬仍然是一個相當有價值的商品,所以Archie大約每個月才檢查更新。起初,Archie構建的索引是要使用Unix命令
grep,但是一個更好的用戶界面很快被開發出來,以便于索引的搜索。繼Archie之后,出現了一些搜索引擎來搜索類似的Gopher協議,其中最著名的兩個是Jughead和Veronica隨著萬維網和隨后的搜索引擎的出現,Archie變得相對過時,但Archie服務器仍然存在。
1993年,在創建萬維網后不久,Matthew Grey開發了萬維網漫游器,這是第一個網絡機器人。萬維網漫游者索引了所有它存在于互聯網上,但并不跟蹤網站的任何實際內容。與漫游者相關的索引是早期的搜索引擎,被稱為Wandex。
在流浪者之后,其他一些小項目也隨之發展起來,它開始接近現代搜索引擎,包括萬維網蠕蟲、基于知識庫的軟件工程(RBSE)蜘蛛和JumpStation。這三家公司都使用網絡機器人收集的數據將信息返回給用戶。不過,大部分信息都是未經過濾的返回,盡管RBSE確實試圖對網頁的價值進行排名。
1993年,斯坦福大學的一些學生創辦了一家名為Excite的公司,該公司發布了可以說是第一個真正整合了頁面內容分析功能的搜索引擎。然而,這項首次發布的目的是在一個網站內進行搜索,不搜索整個網絡。
不過,1994年,搜索引擎的世界有了重大突破。一家名為WebCrawler的公司推出了一款搜索引擎,不僅能捕捉到互聯網上頁面的標題和頁眉,還可以抓取所有內容。WebCrawler取得了巨大成功,以至于很多時候它甚至不能被利用,因為它的系統資源都被利用了。
就在那年晚些時候,Lycos發布了,包括許多與WebCrawler相同的功能,并以此為基礎。Lycos根據相關性對結果進行了排名,并允許用戶調整一些設置以獲得更適合的結果Lycos也很龐大——在這一年里,它有超過100萬個網站被歸檔,兩年內就達到了6000萬個。