互聯網時代,我們可以從網上獲取各類各樣的信息,那么若是我們想要抓取這些信息為我所用,如何才能高效、敏捷的抓取呢?
本人之前抓取網頁上的數據,都是httpwebrequest方式獲取網頁的html,經由過程瀏覽器的調試功能,找到對應元素的關頭詞。然后按照獲取的內容去解析里面的本身需要的數據。
因為本身比力懶,一向沒有去學正則表達式,所以解析只能用字符串處置的方式來做。用indexOf、replace、trim、substring、split等方式來對html進行處置,最終獲得本身想要的內容。
可是如許做的話,很是花時候,并且很輕易犯錯。于是,本人就在網上找了一種可以快速抓取數據的方式,那就是利用HtmlAgilityPack開源項目。
具體利用方式如下:
起首,從NuGet中搜刮HtmlAgilityPack,并將其安裝到項目中。
然后將dll引入到項目之中。
鄙人面這段代碼中,我們用簡單的幾句就實現了從某個網頁獲取html,而且獲取這個頁面中的所有樣式為lists_bigimg_right的div,然后經由過程遍歷lists_bigimg_right,輕松獲得了此中的名稱、鏈接地址和申明三項內容。具體挪用代碼如下:
在利用HtmlAgilityPack之前,我們需要先領會它利用的語法,它利用的是xpath的語法,在瀏覽器搜刮就可以獲得相關的資料。利用HtmlAgilityPack可以年夜年夜提高抓取數據的精確性和抓代替碼的編寫速度。
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!