如何爬取網站數據——前嗅ForeSpider使用教程

前嗅forespider數據采集軟件的利用教程，可視化的軟件，簡單的操作，壯大的功能，幫忙不會爬蟲的人采集數據。

東西/原料

ForeSpider

方式/步調

1
簡介：我們想要從網上獲取本身想要的數據，凡是有幾種常見的體例，體例一，手動復制粘貼，適合收集少量數據；二，本身編寫爬蟲劇本，獲取本身想要獲得的數據，能收集大量數據，但需要本身有編碼能力；三，利用數據采集軟件，既不需要本身編寫爬蟲劇本，又能收集本身想要的數據。
作為一個日常工作中需要采集大量數據來闡發用戶需求與行為的人，又不會編寫劇本，一個好用的數據采集軟件當作為我工作中必不成少的東西，這幾天我利用了幾種數據采集軟件，發現最好用的就是前嗅的ForeSpider數據采集軟件。可視化的操作界面，很高級，功能周全，我需要采集的網站都能知足。下面我給大師分享一下比來的利用心得，但愿能幫忙到有需要的人。
我采集的網站是美團網，想要獲得美團上所有冒菜商家的地址和德律風。
2
第一步：新建使命
打開前嗅ForeSpider采集系統今后
①點擊左上角“加號”新建使命
②在彈窗里填寫采集地址，使命名稱
③點擊下一步，選擇進行數據抽取仍是鏈接抽取，起首當前檢索成果列表鏈接，所以點擊抽取鏈接，選擇鏈接抽取
④完當作后模板抽取設置裝備擺設列表有兩個個模板，默認模板和新建模板，模板一的默認鏈接抽取已與模板二聯系關系
3
第二步：經由過程地址過濾，獲得所需的鏈接。
①點擊采集預覽，在采集預覽中有于方針鏈接相似的其他鏈接，可經由過程地址過濾獲得列表鏈接。找到所需要的列表鏈接，右擊復制鏈接，“https://www.meituan.com/meishi/+數字+/”
②勾選地址過濾，過濾法則選擇包含，將復制的方針地址粘入，利用過濾串“\d”獲得列表鏈接，
過濾串法則申明：\d 暗示一串（個）數字
③點擊采集預覽確認鏈接是否過濾完全
4
第三步：填寫模板二示例地址并新建數據抽取
①將模板一過濾獲得的肆意一條鏈接，作為模板二的示例地址。如：https://www.meituan.com/meishi/137562207/
②新建數據抽取
方式一：經由過程點擊“下一步”后勾選抽取數據，再次點擊“下一步”獲得數據抽取。
方式二：直接點擊模板二，點擊上面“新建數據抽取”按鈕，獲得數據抽取
5
第四步：建立/選擇表單
在ForeSpider爬蟲中，表單是可以復用的，所以可以在數據表單出直接選擇之前建過的表單，也可以經由過程表單ID來進行查找并聯系關系數據表單。此處利用的方式三。
方式一：經由過程下拉菜單或表單ID選擇已有表單
方式二：點擊建立表單進入快速建表頁面，新建表單。
方式三：點擊“采集設置裝備擺設”-“數據建表”，點擊采“采集表單”
6
第五步：設置裝備擺設表單
按照所需內容，設置裝備擺設表單字段（即表頭），此處設置裝備擺設了網頁本家兒鍵、題目、聯系體例、聯系地址共4個字段，表單如圖
7
第六步：字段取值
① 先聯系關系表單
② 字段取值是在數據模板位置寫劇本，來給對應字段賦值，如圖13所示。
代碼如下：
var str=DOM.GetSource().ToStr().Middle("\"detailInfo\":",",\"photos\""); //獲取網頁源碼包含數據部門內容
jScript js;
var obj=js.RunJson(str); //生當作json對象
record re;
re.id=MD5(URL.urlname);//給本家兒鍵字段生當作獨一標識
re.tit=obj.name; //題目名稱
re.addr=obj.address; //店肆地址
re.tel=obj.phone; //店肆德律風
RESULT.AddRec(re,TMPL.fstdoc.schemaid); //將所有的字段放入成果集
8
第七步：模板預覽
①鼠標右鍵點擊“數據抽取”，然后點擊“模板預覽”
②預覽成果
9
第八步：采集預覽
①點擊右上角采集預覽
②雙擊肆意一條鏈接，看看是否可以獲得和網頁對應的規整的數據，如圖17所示。
10
這樣就把美團網冒菜的商家地址和德律風采集出來了，大師也可以按照本身的需要設置進行采集。
今天的分享就就到這里了，我也是初學者可能用的不是出格好，但愿能幫忙到有需要的人，這個軟件確實對我的工作很有幫忙，祝大師利用興奮！