• <noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>
    <menu id="ecgc0"></menu>
  • <tt id="ecgc0"></tt>

    如何爬取網站數據——前嗅ForeSpider使用教程

    前嗅forespider數據采集軟件的利用教程,可視化的軟件,簡單的操作,壯大的功能,幫忙不會爬蟲的人采集數據。

    東西/原料

    • ForeSpider

    方式/步調

    1. 1

      簡介:我們想要從網上獲取本身想要的數據,凡是有幾種常見的體例,體例一,手動復制粘貼,適合收集少量數據;二,本身編寫爬蟲劇本,獲取本身想要獲得的數據,能收集大量數據,但需要本身有編碼能力;三,利用數據采集軟件,既不需要本身編寫爬蟲劇本,又能收集本身想要的數據。

             作為一個日常工作中需要采集大量數據來闡發用戶需求與行為的人,又不會編寫劇本,一個好用的數據采集軟件當作為我工作中必不成少的東西,這幾天我利用了幾種數據采集軟件,發現最好用的就是前嗅的ForeSpider數據采集軟件。可視化的操作界面,很高級,功能周全,我需要采集的網站都能知足。下面我給大師分享一下比來的利用心得,但愿能幫忙到有需要的人。

             我采集的網站是美團網,想要獲得美團上所有冒菜商家的地址和德律風。

    2. 2

      第一步:新建使命

      打開前嗅ForeSpider采集系統今后

      ①點擊左上角“加號”新建使命

      ②在彈窗里填寫采集地址,使命名稱

      ③點擊下一步,選擇進行數據抽取仍是鏈接抽取,起首當前檢索成果列表鏈接,所以點擊抽取鏈接,選擇鏈接抽取

      ④完當作后模板抽取設置裝備擺設列表有兩個個模板,默認模板和新建模板,模板一的默認鏈接抽取已與模板二聯系關系

    3. 3

      第二步:經由過程地址過濾,獲得所需的鏈接。

      ①點擊采集預覽,在采集預覽中有于方針鏈接相似的其他鏈接,可經由過程地址過濾獲得列表鏈接。找到所需要的列表鏈接,右擊復制鏈接,“https://www.meituan.com/meishi/+數字+/”

      ②勾選地址過濾,過濾法則選擇包含,將復制的方針地址粘入,利用過濾串“\d”獲得列表鏈接,

      過濾串法則申明:\d 暗示一串(個)數字

      ③點擊采集預覽確認鏈接是否過濾完全

    4. 4

      第三步:填寫模板二示例地址并新建數據抽取

      ①將模板一過濾獲得的肆意一條鏈接,作為模板二的示例地址。如:https://www.meituan.com/meishi/137562207/

      ②新建數據抽取

      方式一:經由過程點擊“下一步”后勾選抽取數據,再次點擊“下一步”獲得數據抽取。

      方式二:直接點擊模板二,點擊上面“新建數據抽取”按鈕,獲得數據抽取

    5. 5

      第四步:建立/選擇表單

      在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以經由過程表單ID來進行查找并聯系關系數據表單。此處利用的方式三。

      方式一:經由過程下拉菜單或表單ID選擇已有表單

      方式二:點擊建立表單進入快速建表頁面,新建表單。

      方式三:點擊“采集設置裝備擺設”-“數據建表”,點擊采“采集表單”

    6. 6

      第五步:設置裝備擺設表單

      按照所需內容,設置裝備擺設表單字段(即表頭),此處設置裝備擺設了網頁本家兒鍵、題目、聯系體例、聯系地址共4個字段,表單如圖

    7. 7

      第六步:字段取值

      ① 先聯系關系表單

      ② 字段取值是在數據模板位置寫劇本,來給對應字段賦值,如圖13所示。

      代碼如下:

      var str=DOM.GetSource().ToStr().Middle("\"detailInfo\":",",\"photos\""); //獲取網頁源碼包含數據部門內容

      jScript js;

      var obj=js.RunJson(str); //生當作json對象

      record re;

      re.id=MD5(URL.urlname);//給本家兒鍵字段生當作獨一標識

      re.tit=obj.name; //題目名稱

      re.addr=obj.address; //店肆地址

      re.tel=obj.phone; //店肆德律風

      RESULT.AddRec(re,TMPL.fstdoc.schemaid); //將所有的字段放入成果集

    8. 8

      第七步:模板預覽

      ①鼠標右鍵點擊“數據抽取”,然后點擊“模板預覽”

      ②預覽成果

    9. 9

      第八步:采集預覽

      ①點擊右上角采集預覽

      ②雙擊肆意一條鏈接,看看是否可以獲得和網頁對應的規整的數據,如圖17所示。

    10. 10

      這樣就把美團網冒菜的商家地址和德律風采集出來了,大師也可以按照本身的需要設置進行采集。

      今天的分享就就到這里了,我也是初學者可能用的不是出格好,但愿能幫忙到有需要的人,這個軟件確實對我的工作很有幫忙,祝大師利用興奮!

    • 發表于 2019-05-12 20:54
    • 閱讀 ( 1672 )
    • 分類:其他類型

    你可能感興趣的文章

    相關問題

    0 條評論

    請先 登錄 后評論
    admin
    admin

    0 篇文章

    作家榜 ?

    1. xiaonan123 189 文章
    2. 湯依妹兒 97 文章
    3. luogf229 46 文章
    4. jy02406749 45 文章
    5. 小凡 34 文章
    6. Daisy萌 32 文章
    7. 我的QQ3117863681 24 文章
    8. 華志健 23 文章

    聯系我們:uytrv@hotmail.com 問答工具
  • <noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>
    <menu id="ecgc0"></menu>
  • <tt id="ecgc0"></tt>
    久久久久精品国产麻豆