• <noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>
    <menu id="ecgc0"></menu>
  • <tt id="ecgc0"></tt>

    如何使用八爪魚采集新浪新聞文章

    本文介紹如何使用采集器采集新浪新聞文章的方法。

     

    采集的內容包括:新聞標題,新聞正文

    工具/原料

    • 使用功能點: ? 列表及詳細信息采集 ? Ajax點擊加載 ? Xpath修改 ? 自定義數據字段

    方法/步驟

    1. 1

      步驟1:創建新浪新聞采集任務

      1)進入主界面,選擇“自定義采集”

    2. 2

      2)將要采集的網址URL復制粘貼到網站輸入框中,點擊“保存網址”

    3. 3

      步驟2:創建列表循環

      1)打開網頁之后,鼠標選中第一個新聞列表的標題,系統會自動識別出其他相似的鏈接,然后在右面的提示框中選擇“選中全部”

    4. 4

      2)接著選擇“采集以下鏈接文本”

    5. 5

      然后選擇“點擊該鏈接”。

    6. 6

      步驟3:提取詳細信息

      1)進入列表詳情頁面,鼠標選中文章內容第一段,系統會自動識別出其他相似的鏈接,然后在右面的提示框中選擇“選中全部”,

    7. 7

       之后選擇“采集以下元素文本”

    8. 8

       2)選完需要的數據以后,可以打開右上角的流程按鈕,對字段進行修改。

    9. 9

      3)選中提取數據的步驟,鼠標點擊“自定義數據字段”

    10. 10

      之后選擇“自定義數據合并方式

    11. 11

      勾選第二個選項,同一字段合并為同一行

    12. 12

      步驟4:修改Xpath及高級選項設置

      1)選中整個“循環步驟”,打開“高級選項”,可以看到,八爪魚默認生成的元素列表的Xpath并不能定位到所有的文章,所以需要修改

    13. 13

      2)在火狐瀏覽器中打開要采集的網頁并觀察源碼。觀察網頁源碼,修改此條Xpath為:“//p”, 將修改后的Xpath,復制粘貼到八爪魚中所示位置,然后點擊“確定”。

    14. 14

       由于網站涉及到Ajax

    15. 15

      步驟5:新浪新聞數據采集及導出

      1)點擊左上角的“保存”,然后點擊“開始采集”,選擇“啟動本地采集”

    16. 16

      2)采集完成后,會跳出提示,選擇“導出數據”,選擇“合適的導出方式”,將采集好的數據導出, 一份完好的新浪新聞數據就導出來了,這里我們選擇excel作為導出為格式,數據導出后如下圖

    • 發表于 2018-01-29 00:00
    • 閱讀 ( 1080 )
    • 分類:其他類型

    0 條評論

    請先 登錄 后評論
    admin
    admin

    0 篇文章

    作家榜 ?

    1. xiaonan123 189 文章
    2. 湯依妹兒 97 文章
    3. luogf229 46 文章
    4. jy02406749 45 文章
    5. 小凡 34 文章
    6. Daisy萌 32 文章
    7. 我的QQ3117863681 24 文章
    8. 華志健 23 文章

    聯系我們:uytrv@hotmail.com 問答工具
  • <noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>
    <menu id="ecgc0"></menu>
  • <tt id="ecgc0"></tt>
    久久久久精品国产麻豆