爬蟲凡是是偽造一個http請求,然后收到返回的html代碼字符串,然后從中解析出需要的數據。那么,在返回的html中,要若何才能更便利的篩選出需要的信息呢?作為.NET、C#中的一條目優異東西NSoup,就可以把html字符串當做頁面,像JQuery一樣的經由過程ID、class、標簽等等過濾數據
建立ASP.NET MVC項目作為演示NSoup若何像JQuery一樣操作html字符串。此處不再臚陳若何建立MVC項目,拜見下面的鏈接
3實例建立項目
在剛建立的項目MVCNSoup上面,點擊鼠標右鍵,選擇【辦理 NuGet 法式包】,在彈出的界面點擊【瀏覽】-> 輸入【NSoup】-> 選擇第一個,然后點擊右側的【安裝】,就可以將NSoup添加到項目中來
在HomeController的Index方式中,添加一段Html字符串,用于模擬爬取到的網頁內容
在HomeController中添加對NSoup的引用,然后在Index方式中添加經由過程指心猿意馬ID獲取標簽值的代碼(GetElementById)
在VS中設置斷點,按F5調試模式運行,可以看到已經按照預期的從html字符串中獲取到了標簽的值
獲取指定標簽的所有節點 利用 GetElementsByTag,在調試模式下執行結果如圖所示
經由過程CSS查詢過濾器的格局獲取標簽值,調試運行結果如下
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!