Python語言程序設計----【第6周 組合數據類型】 之6.5 模塊5: jieba庫的使用

一、jieba庫概述

jieba是優秀的中文分詞第三方庫

- 中文文本需要通過分詞獲得單個的詞語
- jieba是優秀的中文分詞第三方庫,需要額外安裝
- jieba庫提供三種分詞模式,最簡單隻需掌握一個函數

二、jieba分詞的原理

jieba分詞依靠中文詞庫

- 利用一箇中文詞庫,確定中文字符之間的關聯概率
- 中文字符間概率大的組成詞組,形成分詞結果
- 除了分詞,用戶還可以添加自定義的詞組

三、jieba分詞的三種模式

精確模式、全模式、搜索引擎模式

- 精確模式:把文本精確的切分開,不存在冗餘單詞
- 全模式:把文本中所有可能的詞語都掃描出來,有冗餘
- 搜索引擎模式:在精確模式基礎上,對長詞再次切分

四、jieba庫常用函數

歸根結底,jieba分詞要點函數爲jieba.lcut(s)