Python爬蟲爬取商品失敗處理方法
發(fā)布日期:2022-02-19 10:31 | 文章來源:源碼中國
1.登陸網站,開啟開發(fā)者模式。
可以在瀏覽器中點擊右鍵檢查或者F12打開開發(fā)者模式。
2.點選 NetWork,DOC,然后刷新頁面。
在 network 中選擇 doc,在請求的 headers 中搜索 cookie。
3.獲取對應的 cookie 以及 user-agent。
4.在代碼中添加到 headers 里面。
def getHTMLText(url):
kv = {
'cookie': 'adsgadfafegadsgadsfaefasdfaewfadsfag'
'uaer-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
try:
r = requests.get(url, headers=kv, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "gg"
實例擴展:
程序的結構設計
- 提交商品搜索請求,循環(huán)獲取頁面
- 對于每個頁面,提取商品名稱和價格信息
- 將信息輸出
遇到問題
爬取成功,數據有問題
打印 html 文件,返回如下
<script type="text/javascript">
TRLang = {
ERROR_NICK_BLANK: "請?zhí)顚戀~戶名",
ERROR_PASSWORD_BLANK: "請輸入密碼",
ERROR_NICK_PASSWORD_BLANK: "請輸入賬戶名和密碼",
ERROR_CHECKCODE_BLANK: "請輸入驗證碼",
TIPS_REMEMBER_PASSWORD: "記住密碼",
TIPS_NOT_REMEMBER_PSW_ON_PUBLIC: "不要在公共計算機記住密碼,防止賬戶被盜"
};
</script>
到此這篇關于Python爬蟲爬取商品失敗處理方法的文章就介紹到這了,更多相關Python爬蟲爬取商品失敗內容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持本站!
版權聲明:本站文章來源標注為YINGSOO的內容版權均為本站所有,歡迎引用、轉載,請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網站,禁止在非maisonbaluchon.cn所屬的服務器上建立鏡像,否則將依法追究法律責任。本站部分內容來源于網友推薦、互聯網收集整理而來,僅供學習參考,不代表本站立場,如有內容涉嫌侵權,請聯系alex-e#qq.com處理。
相關文章
關注官方微信