亚洲熟女综合色一区二区三区,亚洲精品中文字幕无码蜜桃,亚洲va欧美va日韩va成人网,亚洲av无码国产一区二区三区,亚洲精品无码久久久久久久

<button id="rejii"><form id="rejii"></form></button>

<button id="rejii"></button>

Python腳本完成登入新浪微博并批量下載

Python開發(fā) 2017年5月11日下午4:10 9941

今天開新浪微博，才發(fā)現(xiàn)收藏已然有2000+了，足足104頁，形似需求收拾下了，但是一頁頁收拾，難以想象

所以想下載，然后進(jìn)行獲取處理，轉(zhuǎn)為文檔。

我們關(guān)注的：

1.微博正文+評(píng)論內(nèi)容

2.圖片

3.視頻鏈接

用Python實(shí)現(xiàn)

思路：

1.腳本模擬登陸新浪微博，保存cookie

2.有了cookie信息后，訪問收藏頁面url

3.從第一頁開始，逐步訪問，直到最后，腳本中進(jìn)行了兩步處理

A.直接下載網(wǎng)頁（下載到本地，當(dāng)然，要看的時(shí)候需要聯(lián)網(wǎng)，因?yàn)閖s，圖片神馬的，都還在）

B.解析出微博需要的內(nèi)容，目前只是存下來，還沒有處理

后續(xù)會(huì)用lxml通過xpath讀取，轉(zhuǎn)換成文檔，當(dāng)然，圖片和視頻鏈接也會(huì)一同處理，目前未想好處理成什么格式。(困了，明后天接著寫)

模擬登陸微博采用是http://www.douban.com/note/201767245/

里面很詳細(xì)，直接拉來用了

步驟：

1.進(jìn)入自己的微博，右側(cè)，收藏，進(jìn)入收藏頁面

http://weibo.com/fav?leftnav=1&wvr=3.6&page=1

拿前綴

Python腳本完成登入新浪微博并批量下載

2.修改腳本填寫

用戶名

密碼

前綴http://weibo.com/fav?leftnav=1&wvr=3.6&page=

Python腳本完成登入新浪微博并批量下載

3.運(yùn)行腳本

Python weibo_collect.py

結(jié)果：

Python腳本完成登入新浪微博并批量下載

其中，帶序號(hào)的，只能連網(wǎng)時(shí)點(diǎn)擊打開有效

tmpcontent是包含所有微博內(nèi)容信息，但目前還沒有處理(還沒想好提取成什么格式，容后再說)

Python腳本完成登入新浪微博并批量下載

附上腳本

Python腳本完成登入新浪微博并批量下載

Python腳本完成登入新浪微博并批量下載

上一篇：使用Python - PCA分析進(jìn)行金融數(shù)據(jù)分析

下一篇：機(jī)器學(xué)習(xí)與攻略力薦

歷經(jīng)多年發(fā)展,已成為國(guó)內(nèi)好評(píng)如潮的Linux云計(jì)算運(yùn)維、SRE、Devops、網(wǎng)絡(luò)安全、云原生、Go、Python開發(fā)專業(yè)人才培訓(xùn)機(jī)構(gòu)!