前嗅forespider數據采集軟件的利用教程,可視化的軟件,簡單的操作,壯大的功能,幫忙不會爬蟲的人采集數據。
簡介:我們想要從網上獲取本身想要的數據,凡是有幾種常見的體例,體例一,手動復制粘貼,適合收集少量數據;二,本身編寫爬蟲劇本,獲取本身想要獲得的數據,能收集大量數據,但需要本身有編碼能力;三,利用數據采集軟件,既不需要本身編寫爬蟲劇本,又能收集本身想要的數據。
作為一個日常工作中需要采集大量數據來闡發用戶需求與行為的人,又不會編寫劇本,一個好用的數據采集軟件當作為我工作中必不成少的東西,這幾天我利用了幾種數據采集軟件,發現最好用的就是前嗅的ForeSpider數據采集軟件。可視化的操作界面,很高級,功能周全,我需要采集的網站都能知足。下面我給大師分享一下比來的利用心得,但愿能幫忙到有需要的人。
我采集的網站是美團網,想要獲得美團上所有冒菜商家的地址和德律風。
第一步:新建使命
打開前嗅ForeSpider采集系統今后
①點擊左上角“加號”新建使命
②在彈窗里填寫采集地址,使命名稱
③點擊下一步,選擇進行數據抽取仍是鏈接抽取,起首當前檢索成果列表鏈接,所以點擊抽取鏈接,選擇鏈接抽取
④完當作后模板抽取設置裝備擺設列表有兩個個模板,默認模板和新建模板,模板一的默認鏈接抽取已與模板二聯系關系
第二步:經由過程地址過濾,獲得所需的鏈接。
①點擊采集預覽,在采集預覽中有于方針鏈接相似的其他鏈接,可經由過程地址過濾獲得列表鏈接。找到所需要的列表鏈接,右擊復制鏈接,“https://www.meituan.com/meishi/+數字+/”
②勾選地址過濾,過濾法則選擇包含,將復制的方針地址粘入,利用過濾串“\d”獲得列表鏈接,
過濾串法則申明:\d 暗示一串(個)數字
③點擊采集預覽確認鏈接是否過濾完全
第三步:填寫模板二示例地址并新建數據抽取
①將模板一過濾獲得的肆意一條鏈接,作為模板二的示例地址。如:https://www.meituan.com/meishi/137562207/
②新建數據抽取
方式一:經由過程點擊“下一步”后勾選抽取數據,再次點擊“下一步”獲得數據抽取。
方式二:直接點擊模板二,點擊上面“新建數據抽取”按鈕,獲得數據抽取
第四步:建立/選擇表單
在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以經由過程表單ID來進行查找并聯系關系數據表單。此處利用的方式三。
方式一:經由過程下拉菜單或表單ID選擇已有表單
方式二:點擊建立表單進入快速建表頁面,新建表單。
方式三:點擊“采集設置裝備擺設”-“數據建表”,點擊采“采集表單”
第五步:設置裝備擺設表單
按照所需內容,設置裝備擺設表單字段(即表頭),此處設置裝備擺設了網頁本家兒鍵、題目、聯系體例、聯系地址共4個字段,表單如圖
第六步:字段取值
① 先聯系關系表單
② 字段取值是在數據模板位置寫劇本,來給對應字段賦值,如圖13所示。
代碼如下:
var str=DOM.GetSource().ToStr().Middle("\"detailInfo\":",",\"photos\""); //獲取網頁源碼包含數據部門內容
jScript js;
var obj=js.RunJson(str); //生當作json對象
record re;
re.id=MD5(URL.urlname);//給本家兒鍵字段生當作獨一標識
re.tit=obj.name; //題目名稱
re.addr=obj.address; //店肆地址
re.tel=obj.phone; //店肆德律風
RESULT.AddRec(re,TMPL.fstdoc.schemaid); //將所有的字段放入成果集
第七步:模板預覽
①鼠標右鍵點擊“數據抽取”,然后點擊“模板預覽”
②預覽成果
第八步:采集預覽
①點擊右上角采集預覽
②雙擊肆意一條鏈接,看看是否可以獲得和網頁對應的規整的數據,如圖17所示。
這樣就把美團網冒菜的商家地址和德律風采集出來了,大師也可以按照本身的需要設置進行采集。
今天的分享就就到這里了,我也是初學者可能用的不是出格好,但愿能幫忙到有需要的人,這個軟件確實對我的工作很有幫忙,祝大師利用興奮!
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!