亚洲熟女综合色一区二区三区,亚洲精品中文字幕无码蜜桃,亚洲va欧美va日韩va成人网,亚洲av无码国产一区二区三区,亚洲精品无码久久久久久久

Python面試真題 - 常見的反爬蟲和應(yīng)對(duì)方法？

Python開發(fā), Python面試題 2019年2月20日上午9:45 7621

【Python面試真題】- 常見的反爬蟲和應(yīng)對(duì)方法？

1）.通過Headers反爬蟲

從用戶請(qǐng)求的Headers反爬蟲是最常見的反爬蟲策略。很多網(wǎng)站都會(huì)對(duì)Headers的User-Agent進(jìn)行檢測(cè)，還有一部分網(wǎng)站會(huì)對(duì)Referer進(jìn)行檢測(cè)（一些資源網(wǎng)站的防盜鏈就是檢測(cè)Referer）。如果遇到了這類反爬蟲機(jī)制，可以直接在爬蟲中添加Headers，將瀏覽器的User-Agent復(fù)制到爬蟲的Headers中；或者將Referer值修改為目標(biāo)網(wǎng)站域名。對(duì)于檢測(cè)Headers的反爬蟲，在爬蟲中修改或者添加Headers就能很好的繞過。

2）.基于用戶行為反爬蟲

還有一部分網(wǎng)站是通過檢測(cè)用戶行為，例如同一IP短時(shí)間內(nèi)多次訪問同一頁面，或者同一賬戶短時(shí)間內(nèi)多次進(jìn)行相同操作。

大多數(shù)網(wǎng)站都是前一種情況，對(duì)于這種情況，使用IP代理就可以解決?？梢詫ｉT寫一個(gè)爬蟲，爬取網(wǎng)上公開的代理ip，檢測(cè)后全部保存起來。這樣的代理ip爬蟲經(jīng)常會(huì)用到，最好自己準(zhǔn)備一個(gè)。有了大量代理ip后可以每請(qǐng)求幾次更換一個(gè)ip，這在requests或者urllib2中很容易做到，這樣就能很容易的繞過第一種反爬蟲。

對(duì)于第二種情況，可以在每次請(qǐng)求后隨機(jī)間隔幾秒再進(jìn)行下一次請(qǐng)求。有些有邏輯漏洞的網(wǎng)站，可以通過請(qǐng)求幾次，退出登錄，重新登錄，繼續(xù)請(qǐng)求來繞過同一賬號(hào)短時(shí)間內(nèi)不能多次進(jìn)行相同請(qǐng)求的限制。

3）.動(dòng)態(tài)頁面的反爬蟲

上述的幾種情況大多都是出現(xiàn)在靜態(tài)頁面，還有一部分網(wǎng)站，我們需要爬取的數(shù)據(jù)是通過ajax請(qǐng)求得到，或者通過JavaScript生成的。首先用Fiddler對(duì)網(wǎng)絡(luò)請(qǐng)求進(jìn)行分析。如果能夠找到ajax請(qǐng)求，也能分析出具體的參數(shù)和響應(yīng)的具體含義，我們就能采用上面的方法，直接利用requests或者urllib2模擬ajax請(qǐng)求，對(duì)響應(yīng)的json進(jìn)行分析得到需要的數(shù)據(jù)。

能夠直接模擬ajax請(qǐng)求獲取數(shù)據(jù)固然是極好的，但是有些網(wǎng)站把a(bǔ)jax請(qǐng)求的所有參數(shù)全部加密了。我們根本沒辦法構(gòu)造自己所需要的數(shù)據(jù)的請(qǐng)求。這種情況下就用selenium+phantomJS，調(diào)用瀏覽器內(nèi)核，并利用phantomJS執(zhí)行js來模擬人為操作以及觸發(fā)頁面中的js腳本。從填寫表單到點(diǎn)擊按鈕再到滾動(dòng)頁面，全部都可以模擬，不考慮具體的請(qǐng)求和響應(yīng)過程，只是完完整整的把人瀏覽頁面獲取數(shù)據(jù)的過程模擬一遍。

用這套框架幾乎能繞過大多數(shù)的反爬蟲，因?yàn)樗皇窃趥窝b成瀏覽器來獲取數(shù)據(jù)（上述的通過添加?Headers一定程度上就是為了偽裝成瀏覽器），它本身就是瀏覽器，phantomJS就是一個(gè)沒有界面的瀏覽器，只是操控這個(gè)瀏覽器的不是人。利selenium+phantomJS能干很多事情，例如識(shí)別點(diǎn)觸式（12306）或者滑動(dòng)式的驗(yàn)證碼，對(duì)頁面表單進(jìn)行暴力破解等。

聲明：文章來源于網(wǎng)絡(luò)，侵刪！

Python面試題

上一篇：【Python面試真題】- Post和get有什么區(qū)別呢？

下一篇：【Python面試真題】- scrapy和scrapy-redis有什么區(qū)別？為什么選擇redis數(shù)據(jù)庫？

歷經(jīng)多年發(fā)展,已成為國內(nèi)好評(píng)如潮的Linux云計(jì)算運(yùn)維、SRE、Devops、網(wǎng)絡(luò)安全、云原生、Go、Python開發(fā)專業(yè)人才培訓(xùn)機(jī)構(gòu)!

<center id="a6gy2"></center>

<rt id="a6gy2"></rt>

<button id="a6gy2"><fieldset id="a6gy2"></fieldset></button>

<li id="a6gy2"><tbody id="a6gy2"></tbody></li>

<button id="a6gy2"><fieldset id="a6gy2"></fieldset></button>

<abbr id="a6gy2"></abbr>

<rt id="a6gy2"></rt>

<code id="a6gy2"></code>

<button id="a6gy2"><dl id="a6gy2"></dl></button>