本文以ASP.NET平臺的東西為例,為您介紹若何爬取動態網頁內容,本家兒要利用RestSharp + NSoup兩個dll組件
經由過程NuGet或者其他體例,將RestSharp 和 NSoup兩個組件引入到您的項目中
RestSharp:用于倡議http請求,從網頁中獲取html內容
NSoup:用于像Jquery一樣的獲取拜候到的html內容,不再需要各類復雜的正則匹配了
實例化一個RestClient,參數為要拜候的頁面url地址
初始化一個RestRequest,撐持9種請求模式,按照現實頁面需要自行選擇
若是頁面需要參數,就利用AddParameter方式將參數添加到RestRequest實例中,撐持7種參數類型
Client和Request都初始化完當作后,就可以挪用client.Execute(request).Content獲得頁面拜候返回的含html標簽的完整字符串
接下來就是解析返回的html字符串內容了。利用NSoup.NSoupClient.Parse(htmlResult)就可以將返回的html字符串,轉換為NSoup的文檔內容
轉換為NSoup的文檔內容之后,就可以利用GetElementsByClass、GetElementById等等體例獲取具體內容的值了
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!