Python?jiaba庫的使用詳解
jiaba庫的使用
jieba庫是一款優(yōu)秀的 Python 第三方中文分詞庫,jieba 支持三種分詞模式:精確模式、全模式和搜索引擎模式,下面是三種模式的特點。
精確模式:試圖將語句最精確的切分,不存在冗余數(shù)據(jù),適合做文本分析
全模式:將語句中所有可能是詞的詞語都切分出來,速度很快,但是存在冗余數(shù)據(jù)
搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次進(jìn)行切分
1、jieba庫的安裝
全自動安裝:easy_install jieba 或者 pip install jieba / pip3 install jieba
- 半自動安裝:先下載 http://pypi.python.org/pypi/jieba/ ,解壓后運行
python setup.py install - 手動安裝:將 jieba 目錄放置于當(dāng)前目錄或者 site-packages 目錄
- 通過 import jieba 來引用
如下:全自動安裝
Win+R ==>cmd
pip install jieba
安裝時可能會出現(xiàn)pip版本錯誤
進(jìn)入pip目錄,更新即可

進(jìn)入pip目錄,更新即可
python.exe -m pip install --upgrade pip
在 pyCharm 中安裝:
打開 settings,搜索 Project Interpreter,在右邊的窗口選擇 + 號,點擊后在搜索框搜索
jieba,點擊安裝即可
2、統(tǒng)計荷塘月色詞頻
荷塘月色.txt
這幾天心里頗不寧靜。今晚在院子里坐著乘涼,忽然想起日日走過的荷塘,在這滿月的光里,總該另有一番樣子吧。月亮漸漸地升高了,墻外馬路上孩子們的歡笑,已經(jīng)聽不見了;妻在屋里拍著閏兒,迷迷糊糊地哼著眠歌。我悄悄地披了大衫,帶上門出去。 沿著荷塘,是一條曲折的小煤屑路。這是一條幽僻的路;白天也少人走,夜晚更加寂寞。荷塘四周,長著許多樹,蓊蓊(wěng)郁郁的。路的一旁,是些楊柳,和一些不知道名字的樹。沒有月光的晚上,這路上陰森森的,有些怕人。今晚卻很好,雖然月光也還是淡淡的。 路上只我一個人,背著手踱(duó)著。這一片天地好像是我的;我也像超出了平常的自己,到了另一個世界里。我愛熱鬧,也愛冷靜;愛群居,也愛獨處。像今晚上,一個人在這蒼茫的月下,什么都可以想,什么都可以不想,便覺是個自由的人。白天里一定要做的事,一定要說的話,現(xiàn)在都可不理。這是獨處的妙處,我且受用這無邊的荷香月色好了。 曲曲折折的荷塘上面,彌望的是田田的葉子。葉子出水很高,像亭亭的舞女的裙。層層的葉子中間,零星地點綴著些白花,有裊娜(niǎo,nuó)地開著的,有羞澀地打著朵兒的;正如一粒粒的明珠,又如碧天里的星星,又如剛出浴的美人。微風(fēng)過處,送來縷縷清香,仿佛遠(yuǎn)處高樓上渺茫的歌聲似的。這時候葉子與花也有一絲的顫動,像閃電般,霎時傳過荷塘的那邊去了。葉子本是肩并肩密密地挨著,這便宛然有了一道凝碧的波痕。葉子底下是脈脈(mò)的流水,遮住了,不能見一些顏色;而葉子卻更見風(fēng)致了。 月光如流水一般,靜靜地瀉在這一片葉子和花上。薄薄的青霧浮起在荷塘里。葉子和花仿佛在牛乳中洗過一樣;又像籠著輕紗的夢。雖然是滿月,天上卻有一層淡淡的云,所以不能朗照;但我以為這恰是到了好處——酣眠固不可少,小睡也別有風(fēng)味的。月光是隔了樹照過來的,高處叢生的灌木,落下參差的斑駁的黑影,峭楞楞如鬼一般;彎彎的楊柳的稀疏的倩影,卻又像是畫在荷葉上。塘中的月色并不均勻;但光與影有著和諧的旋律,如梵婀(ē)玲(英語violin小提琴的譯音)上奏著的名曲。 荷塘的四面,遠(yuǎn)遠(yuǎn)近近,高高低低都是樹,而楊柳最多。這些樹將一片荷塘重重圍?。恢辉谛÷芬慌?,漏著幾段空隙,像是特為月光留下的。樹色一例是陰陰的,乍看像一團(tuán)煙霧;但楊柳的豐姿,便在煙霧里也辨得出。樹梢上隱隱約約的是一帶遠(yuǎn)山,只有些大意罷了。樹縫里也漏著一兩點路燈光,沒精打采的,是渴睡人的眼。這時候最熱鬧的,要數(shù)樹上的蟬聲與水里的蛙聲;但熱鬧是他們的,我什么也沒有。 忽然想起采蓮的事情來了。采蓮是江南的舊俗,似乎很早就有,而六朝時為盛;從詩歌里可以約略知道。采蓮的是少年的女子,她們是蕩著小船,唱著艷歌去的。采蓮人不用說很多,還有看采蓮的人。那是一個熱鬧的季節(jié),也是一個風(fēng)流的季節(jié)。梁元帝《采蓮賦》里說得好: 于是妖童媛(yuàn)女,蕩舟心許;鷁(yì)首徐回,兼?zhèn)饔鸨?;?zhào)將移而藻掛,船欲動而萍開。爾其纖腰束素,遷延顧步;夏始春余,葉嫩花初,恐沾裳而淺笑,畏傾船而斂裾(jū)。 可見當(dāng)時嬉游的光景了。這真是有趣的事,可惜我們現(xiàn)在早已無福消受了。 于是又記起,《西州曲》里的句子: 采蓮南塘秋,蓮花過人頭;低頭弄蓮子,蓮子清如水。 今晚若有采蓮人,這兒的蓮花也算得“過人頭”了;只不見一些流水的影子,是不行的。這令我到底惦著江南了?!@樣想著,猛一抬頭,不覺已是自己的門前;輕輕地推門進(jìn)去,什么聲息也沒有了,妻已睡熟好久了。
中文虛詞.txt
從、自從、自、打、到、往、在、由、向、于、至、趁、當(dāng)、當(dāng)著、沿著、順著 按、按照、遵照、依照、靠、本著、用、通過、根據(jù)、據(jù)、拿、比 因、因為、由于、為、為了、為著 被、給、讓、叫、歸、由、把、將、管 對、對于、關(guān)于、跟、和、給、替、向、同、除了 同、和、跟、與、及、或、以及 而、而且、并、并且、或者 不但、不僅、雖然、但是、然而、如果、與其、因為、所以 的、得、地 著、了、過 也、這、里 似的、一樣、一般 給、連、們、所 的、了、吧、呢、啊、著、嘛、唄、罷了、而已、也罷、也好、啦、嘞、嘍、著呢 嗎、么、呢、啊、吧 ,。;()
代碼
```python
import jieba
# 讀取文件內(nèi)容
def read_content():
f = open("荷塘月色.txt", encoding='utf-8')#讀取時要設(shè)置文件編碼格式
content = f.read()
f.close()
return content
# 打印信息
def print_info(values=[]):
for item in values:
print(item)
# 主函數(shù)
if __name__ == '__main__':
# print_info(read_content())
content = read_content()
article = jieba.lcut(content) # 分割字符為詞list
dic = {}
for word in article:
if word not in dic:
dic[word] = 1
else:
dic[word] += 1
swd = sorted(list(dic.items()), key=lambda lst: lst[1], reverse=True) # 統(tǒng)計每個詞出現(xiàn)次數(shù),從高到第排序
f1 = open('中文虛詞.txt', encoding="utf-8") # 排除那些虛詞,連詞,標(biāo)點符號等
stop_wds = f1.read()
f1.close()
for kword, times in swd:
if kword not in stop_wds: # 當(dāng)前詞未包含在排除的那些詞里面,就輸出現(xiàn)次數(shù)
print(kword, times)
運行結(jié)果:

總結(jié)
本篇文章就到這里了,希望能夠給你帶來幫助,也希望您能夠多多關(guān)注本站的更多內(nèi)容!
版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非maisonbaluchon.cn所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。
關(guān)注官方微信