香港三日本三级少妇三级视频 ,四虎影视88aa四虎在钱,熟女肥臀白浆大屁股一区二区

技術(shù)工具

在正文開始之前，先介紹下本篇文章中用到的技術(shù)棧和工具。

本文用到的技術(shù)棧和工具如下，歸結(jié)為四個(gè)方面；

語言：Python，Vue ，javascript；
存儲：MongoDB;
庫：echarts ，Pymongo，WordArt…
軟件：Photoshop；

數(shù)據(jù)采集

本次數(shù)據(jù)采集的目標(biāo)網(wǎng)站為豆瓣，但自己的賬號之前被封，所以只能采集到大概二百來?xiàng)l數(shù)據(jù)，豆瓣有相應(yīng)的反爬機(jī)制，瀏覽10頁以上的評論需要用戶登錄才能進(jìn)行下一步操作

至于為啥賬號被封，是因?yàn)橹白约簩W(xué)爬蟲時(shí)不知道在哪里搞的【豆瓣模擬登錄】代碼，當(dāng)時(shí)不知道代碼有沒有問題，愣頭青直接用自己的號試了下，誰知道剛試完就被封了，而且還是永久的那種

圖1

在這里也給大家提個(gè)醒在以后做爬蟲時(shí)，模擬登錄時(shí)盡量用一些測試賬號，能不用自己的號就別用，

這次數(shù)據(jù)采集也比較簡單，就是更改圖2 中 url 上的 start 參數(shù)，以 offset 為 20 的規(guī)則作為下一頁 url 的拼接；

圖2

拿到請求連接之后，用 requests 的 get 請求，再對獲取到的 html 數(shù)據(jù)做個(gè)解析，就能獲取到我們需要的數(shù)據(jù)了；采集核心代碼貼在下方

for offset in range(0,220,20):
 url = "https://movie.douban.com/subject/34812928/comments?start={}&limit=20&status=P&sort=new_score".format(offset)
 res = requests.get(url,headers= headers)
 # print(res.text)
 soup = BeautifulSoup(res.text,'lxml')
 time.sleep(2)
 for comment_item in soup.select("#comments > .comment-item"):
  try:
data_item = []
avatar = comment_item.select(".avatar a img")[0].get("src")
name = comment_item.select(".comment h3 .comment-info a")[0]
rate = comment_item.select(".comment h3 .comment-info span:nth-child(3)")[0]
date = comment_item.select(".comment h3 .comment-info span:nth-child(4)")[0]
comment = comment_item.select(".comment .comment-content span")[0]
# comment_item.get("div img").ge
data_item.append(avatar)
data_item.append(str(name.string).strip("\t"))
data_item.append(str(rate.get("class")[0]).strip("allstar").strip('\t').strip("\n"))
data_item.append(str(date.string).replace('\n','').strip('\t'))
data_item.append(str(comment.string).strip("\t").strip("\n"))
data_json ={
 'avatar':avatar,
 'name': str(name.string).strip("\t"),
 'rate': str(rate.get("class")[0]).strip("allstar").strip('\t').strip("\n"),
 'date' : str(date.string).replace('\n','').replace('\t','').strip(' '),
 'comment': str(comment.string).strip("\t").strip("\n")
}
if not (collection.find_one({'avatar':avatar})):
print("data _json is {}".format(data_json))
collection.insert_one(data_json)
f.write('\t'.join(data_item))
f.write("\n")
  except Exception as e:
print(e)
continue

豆瓣爬取時(shí)需要記得加上 cookie 和 User-Agent，否則不會有數(shù)據(jù)為空，

為了后面數(shù)據(jù)可視化提取方便，本文用的是 Mongodb 作為數(shù)據(jù)存儲，共有211 條數(shù)據(jù)，主要采集的數(shù)據(jù)字段為 avatar，name、rate、date、comment，分別表示用戶頭像、用戶名字、星級、日期，評論；結(jié)果見圖3；

圖3

關(guān)于 Python 怎么使用 MongoDB，可以參考舊聞

數(shù)據(jù)可視化

可視化部分之前打算用 Python + Pyecharts 來實(shí)現(xiàn)，但 Python 圖表中的交互效果不是很好，索性就直接用原生 Echarts + Vue 組合來實(shí)現(xiàn)，而且，這樣的話，將所有圖表放在一個(gè)網(wǎng)頁中也比較方便

首先是對評論時(shí)間與評論數(shù)量做了一個(gè)圖表預(yù)覽，根據(jù)這些數(shù)據(jù)的評論時(shí)間作為一個(gè)散點(diǎn)圖分布，看一下用戶評論主要的時(shí)間分布

圖4

圖4中點(diǎn)的大小和顏色代表當(dāng)天評論數(shù)量，而評論數(shù)量也可以側(cè)面反應(yīng)該劇當(dāng)天的熱度。

可以了解到，《魷魚游戲》影評從 9 月17 日開始增長，在 20 號數(shù)量達(dá)到頂峰，21 日回落；在21日-29日評論數(shù)量來回震蕩，相差不大；

直到國慶 10月1日最少，猜測可能是一方面是國慶假期大家都出去玩的緣故，另一方面是隨著時(shí)間推移，這個(gè)劇的熱度也就降下來了

為了了解大家對《魷魚游戲》的評價(jià)，我對這二百條數(shù)據(jù)對這個(gè)劇的【評分星級】繪制了一個(gè)餅圖，最終效果見圖5

圖5

說實(shí)話圖5 的結(jié)果讓我有些意外，至少對于我而言這部劇質(zhì)量說實(shí)話還是蠻高的，繪圖之前以為【五星】的占比應(yīng)該是最大的，其次是【四星】，再然后是【三星】；

現(xiàn)在【三星】和【五星】的占比恰恰相反，猜測可能是這部劇的情節(jié)比較殘忍，會引起人的不適，所以高分占比不高；

為了方便，最后我將上面兩張圖表放置在一個(gè)網(wǎng)頁上，效果見圖6 和圖7 兩種不同布局

垂直布局

圖6

水平布局

圖7

詞云可視化

本次采集的數(shù)據(jù)信息有限能分析的數(shù)據(jù)維度不多，關(guān)于數(shù)據(jù)圖表方面的分析基本就到這里了，下面是對采集到的評論做了幾張?jiān)~云圖

圖8

從圖8來看，去除現(xiàn)實(shí)中常用到的還是、就是等口頭語，人性是影評中頻率最高的一個(gè)詞，而這個(gè)詞確實(shí)符合《魷魚游戲》這部劇的主題，從第一集開始到結(jié)束都是在刨析人性，賭徒們的”貪婪、賭性成癮“，貴賓們的”弱肉強(qiáng)食“

圖9

對比上張?jiān)~云圖，圖9凸顯的信息相對就多了些，例如韓國、人設(shè)、刺激、劇情、賭博默示錄、題材等都與劇情有關(guān)，除了這幾個(gè)信息之外，李政宰、孔劉、李秉憲等幾個(gè)主演也被提到

最后，我將采集到的用戶頭像做了兩張圖片墻作為文章的結(jié)尾

圖10

圖10照片墻的輪廓采用的是劇中的人物截圖，一個(gè)是123木頭人，另外一個(gè)是男一在玩游戲二的一個(gè)鏡頭：

關(guān)于照片墻制作方法，可參考舊聞：

小結(jié)

好了，以上就是本篇文章的全部內(nèi)容了，本文分析到的東西并不多，主要是介紹了 Python 在數(shù)據(jù)采集和可視化方面的一些應(yīng)用。

如果內(nèi)容對你有所幫助的話，歡迎讀者朋友們將文章分享給更多的人！

最后感謝大家的閱讀，我們下期見~

更多關(guān)于Python分析豆瓣影評的資料請關(guān)注本站其它相關(guān)文章！

版權(quán)聲明：本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站，禁止在非maisonbaluchon.cn所屬的服務(wù)器上建立鏡像，否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學(xué)習(xí)參考，不代表本站立場，如有內(nèi)容涉嫌侵權(quán)，請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

動態(tài)撥號：關(guān)鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項(xiàng)

概要：競價(jià)推廣費(fèi)用大概要多少呢，競價(jià)推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費(fèi)郵箱有哪些優(yōu)勢，付費(fèi)郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢