如何使用八爪魚采集新浪新聞文章 - IIIFF互動問答平臺

<noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>

<menu id="ecgc0"></menu>

<tt id="ecgc0"></tt>

如何使用八爪魚采集新浪新聞文章

本文介紹如何使用采集器采集新浪新聞文章的方法。

采集的內容包括：新聞標題，新聞正文

工具/原料

使用功能點： ? 列表及詳細信息采集 ? Ajax點擊加載 ? Xpath修改 ? 自定義數據字段

方法/步驟

1
步驟1：創建新浪新聞采集任務
1）進入主界面，選擇“自定義采集”
2
2）將要采集的網址URL復制粘貼到網站輸入框中，點擊“保存網址”
3
步驟2：創建列表循環
1）打開網頁之后，鼠標選中第一個新聞列表的標題，系統會自動識別出其他相似的鏈接，然后在右面的提示框中選擇“選中全部”
4
2）接著選擇“采集以下鏈接文本”
5
然后選擇“點擊該鏈接”。
6
步驟3：提取詳細信息
1）進入列表詳情頁面，鼠標選中文章內容第一段，系統會自動識別出其他相似的鏈接，然后在右面的提示框中選擇“選中全部”，
7
之后選擇“采集以下元素文本”
8
2）選完需要的數據以后，可以打開右上角的流程按鈕，對字段進行修改。
9
3）選中提取數據的步驟，鼠標點擊“自定義數據字段”
10
之后選擇“自定義數據合并方式
11
勾選第二個選項，同一字段合并為同一行
12
步驟4：修改Xpath及高級選項設置
1）選中整個“循環步驟”，打開“高級選項”，可以看到，八爪魚默認生成的元素列表的Xpath并不能定位到所有的文章，所以需要修改
13
2）在火狐瀏覽器中打開要采集的網頁并觀察源碼。觀察網頁源碼，修改此條Xpath為：“//p”, 將修改后的Xpath，復制粘貼到八爪魚中所示位置，然后點擊“確定”。
14
由于網站涉及到Ajax
15
步驟5：新浪新聞數據采集及導出
1）點擊左上角的“保存”，然后點擊“開始采集”，選擇“啟動本地采集”
16
2）采集完成后，會跳出提示，選擇“導出數據”，選擇“合適的導出方式”，將采集好的數據導出, 一份完好的新浪新聞數據就導出來了，這里我們選擇excel作為導出為格式，數據導出后如下圖

發表于 2018-01-29 00:00
閱讀 ( 1141 )
分類：其他類型

作家榜 ?

xiaonan123 189 文章
湯依妹兒 97 文章
luogf229 46 文章
jy02406749 45 文章
小凡 34 文章
Daisy萌 32 文章
我的QQ3117863681 24 文章
華志健 23 文章

聯系我們:uytrv@hotmail.com 問答工具

<noscript id="ecgc0"><kbd id="ecgc0"></kbd></noscript>

<menu id="ecgc0"></menu>

<tt id="ecgc0"></tt>

久久久久精品国产麻豆