Python語言程序設計----【第6周 組合數據類型】 之6.5 模塊5: jieba庫的使用
時間 2021-01-05
標籤
學習總結
程序語言
一、jieba庫概述
jieba是優秀的中文分詞第三方庫
- 中文文本需要通過分詞獲得單個的詞語
- jieba是優秀的中文分詞第三方庫,需要額外安裝
- jieba庫提供三種分詞模式,最簡單隻需掌握一個函數
二、jieba分詞的原理
jieba分詞依靠中文詞庫
- 利用一箇中文詞庫,確定中文字符之間的關聯概率
- 中文字符間概率大的組成詞組,形成分詞結果
- 除了分詞,用戶還可以添加自定義的詞組
三、jieba分詞的三種模式
精確模式、全模式、搜索引擎模式
- 精確模式:把文本精確的切分開,不存在冗餘單詞
- 全模式:把文本中所有可能的詞語都掃描出來,有冗餘
- 搜索引擎模式:在精確模式基礎上,對長詞再次切分
四、jieba庫常用函數
歸根結底,jieba分詞要點函數爲jieba.lcut(s)