本文介紹爬蟲若何防止數據反復爬取數據
我們在做爬蟲程序的時辰,若是是爬取內容相對固心猿意馬的內容,比力輕易避免內容的反復爬取。
可是,若是爬取的內容是一向轉變的,如某個內容的頁碼是及時轉變的,那么我們就需要做反復查抄。
那么怎么做反復查抄?
起首,我們需要將每項爬取的內容設置一個獨一標示。如題目、鏈接地址等。
然后,我們在爬取的時辰,將這些內容都記實到數據庫中。
在每爬取一條數據時,和數據庫內容進行比力,若是該key值已經呈現過,那么就申明該記實已經爬取,就不該該再反復爬取。
可是,這樣還會有一個問題,就是高并發環境下,仍是有可能會反復爬取,那么我們可以采納在插入的sql語句中增添校驗。利用Insert Select Not Exist語句在進行插入,避免數據插入反復。
0 篇文章
如果覺得我的文章對您有用,請隨意打賞。你的支持將鼓勵我繼續創作!