人工控制計算機screen scraper將搜索網站的代碼,并過濾掉多余的代碼,這些代碼將為最終瀏覽器提供一個漂亮的外觀。這樣的代碼對于以預期的布局查看整個頁面是必要的,但是鏟運機只是在尋找有用的數據。這些數據被收集并作為一個簡單的數據庫呈現,沒有了原來提供的HTML代碼,一個很好的例子就是使用搜索引擎蜘蛛,這些蜘蛛訪問成千上萬的網站,這些網站每一個網站都包含大量的網頁,這些網站的關鍵詞數據被收集并編入索引,最終作為搜索引擎的結果呈現給最終用戶。大多數屏幕抓取器會搜索網站的HTML編碼來獲取信息,但他們也可以搜索其他腳本語言,如JavaScript或PHP挖掘出來的數據可以顯示為HTML本身,這樣用戶就可以用他們的web瀏覽器訪問它,或者存儲為用戶可以離線訪問的文本數據關鍵字相關網站,以便生成圖表、電子表格和比較數據,以便在報告和演示文稿中使用。屏幕刮板節省了大量時間,因為執行相同任務的員工必須搜索相關網站,單擊鏈接,并單獨瀏覽每個網站,以查找和記錄當信息存儲在由于與新的硬件或軟件的兼容性問題而無法訪問的系統中時,也可以使用屏幕刮板。屏幕刮板可以是福也是禍對于網站所有者和網絡沖浪者。雖然他們絕對為企業、搜索引擎和其他人提供功能性服務,但屏幕刮板也可用于非利他目的。例如,使用垃圾郵件作為廣告手段的公司或個人可以使用屏幕刮板從網站中挖掘電子郵件地址雖然screen scraper可以是一個方便的工具,但是web社區在使用它們時存在一些關于法律和道德的爭論。當screen scraper提取某人的辛苦工作并以另一種格式呈現時,版權問題就變得模糊了另一個網站,以及那些依靠廣告來創收的網站,當他們的廣告被屏幕刮片機丟棄時,就會出現問題因此,一些網站所有者已經開始實施一些工具,以防止他們的網站被刮掉。
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!