亚洲熟女综合色一区二区三区,亚洲精品中文字幕无码蜜桃,亚洲va欧美va日韩va成人网,亚洲av无码国产一区二区三区,亚洲精品无码久久久久久久

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

自從看了師傅爬了頂點全站之后,我也手癢癢的,也想爬一個比較牛逼的小說網(wǎng)看看,于是選了宜搜這個網(wǎng)站,好了,馬上開干,這次用的是mogodb數(shù)據(jù)庫,感覺mysql太麻煩了下圖是我選擇宜搜里面遍歷的網(wǎng)站

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

先看代碼框架圖

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

第一個,肯定先提取排行榜里面每個類別的鏈接啊,然后進入鏈接進行爬取,先看all_theme文件

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

看看運行結(jié)果,這是書籍類目的

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

這是構(gòu)造出的每一個類目里面所有的頁數(shù)鏈接,也是我們爬蟲的入口,一共5000多頁

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

接下來是封裝的數(shù)據(jù)庫操作,因為用到了多進程以及多線程每個進程,他們需要知道那些URL爬取過了、哪些URL需要爬取!我們來給每個URL設(shè)置兩種狀態(tài):

  • outstanding:等待爬取的URL

  • complete:爬取完成的URL

  • processing:正在進行的URL。

嗯!當一個所有初始的URL狀態(tài)都為outstanding;當開始爬取的時候狀態(tài)改為:processing;爬取完成狀態(tài)改為:complete;失敗的URL重置狀態(tài)為:outstanding。

為了能夠處理URL進程被終止的情況、我們設(shè)置一個計時參數(shù),當超過這個值時;我們則將狀態(tài)重置為outstanding。

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

接下來是爬蟲主程序

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

讓我們來看看結(jié)果吧

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

里面因為很多都是重復的,所有去重之后只有十幾萬本,好失望......

作者:蝸牛仔

來源:http://www.jianshu.com/p/a1c5183f3f4d

 


 

————廣告時間————

馬哥教育2017年P(guān)ython自動化運維開發(fā)實戰(zhàn)班,馬哥聯(lián)合BAT、豆瓣等一線互聯(lián)網(wǎng)Python開發(fā)達人,根據(jù)目前企業(yè)需求的Python開發(fā)人才進行了深度定制,加入了大量一線互聯(lián)網(wǎng)公司:大眾點評、餓了么、騰訊等生產(chǎn)環(huán)境真是項目,課程由淺入深,從Python基礎(chǔ)到Python高級,讓你融匯貫通Python基礎(chǔ)理論,手把手教學讓你具備Python自動化開發(fā)需要的前端界面開發(fā)、Web框架、大監(jiān)控系統(tǒng)、CMDB系統(tǒng)、認證堡壘機、自動化流程平臺六大實戰(zhàn)能力,讓你從0開始蛻變成Hold住年薪20萬的Python自動化開發(fā)人才。

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!課程咨詢請長按即可咨詢Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

相關(guān)新聞

歷經(jīng)多年發(fā)展,已成為國內(nèi)好評如潮的Linux云計算運維、SRE、Devops、網(wǎng)絡(luò)安全、云原生、Go、Python開發(fā)專業(yè)人才培訓機構(gòu)!