本文介紹如何使用采集器采集新浪新聞文章的方法。
采集的內容包括:新聞標題,新聞正文
步驟1:創建新浪新聞采集任務
1)進入主界面,選擇“自定義采集”
2)將要采集的網址URL復制粘貼到網站輸入框中,點擊“保存網址”
步驟2:創建列表循環
1)打開網頁之后,鼠標選中第一個新聞列表的標題,系統會自動識別出其他相似的鏈接,然后在右面的提示框中選擇“選中全部”
2)接著選擇“采集以下鏈接文本”
然后選擇“點擊該鏈接”。
步驟3:提取詳細信息
1)進入列表詳情頁面,鼠標選中文章內容第一段,系統會自動識別出其他相似的鏈接,然后在右面的提示框中選擇“選中全部”,
之后選擇“采集以下元素文本”
2)選完需要的數據以后,可以打開右上角的流程按鈕,對字段進行修改。
3)選中提取數據的步驟,鼠標點擊“自定義數據字段”
之后選擇“自定義數據合并方式
勾選第二個選項,同一字段合并為同一行
步驟4:修改Xpath及高級選項設置
1)選中整個“循環步驟”,打開“高級選項”,可以看到,八爪魚默認生成的元素列表的Xpath并不能定位到所有的文章,所以需要修改
2)在火狐瀏覽器中打開要采集的網頁并觀察源碼。觀察網頁源碼,修改此條Xpath為:“//p”, 將修改后的Xpath,復制粘貼到八爪魚中所示位置,然后點擊“確定”。
由于網站涉及到Ajax
步驟5:新浪新聞數據采集及導出
1)點擊左上角的“保存”,然后點擊“開始采集”,選擇“啟動本地采集”
2)采集完成后,會跳出提示,選擇“導出數據”,選擇“合適的導出方式”,將采集好的數據導出, 一份完好的新浪新聞數據就導出來了,這里我們選擇excel作為導出為格式,數據導出后如下圖
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!