jieba分词有哪些模式？_代码007(未授权)

精确模式是默认的分词模式，它试图将文本精确地切分成词语，适用于文本分析和挖掘等任务。在精确模式下，jie b a分词库会对待分的句子进行全词匹配，找出所有可能的词语，然后依据词典中的词语频率计算出最可能的切分结果。
精确模式的调用方法是：jieba.cut(text, cut_all=False)，其中 cut_all=False 表示精确模式。下面是一个示例：

import jieba

text = "我爱自然语言处理"
words = jieba.cut(text, cut_all=False)
print(list(words))

['我', '爱', '自然语言', '处理']

可以看到，ji e ba将输入的文本按照最大概率的方式分成了4个词语，其中“自然语言”被识别为一个词语。

全模式是一种比较宽松的分词模式，它会将文本中所有可能的词语都分出来，适用于一些对速度要求比较高的场景。在全模式下，ji eba分词库会对待分的句子进行正向最大匹配，即从前往后扫描文本，找到最长的可能词语，然后将其切分出来，再从新的位置开始继续扫描。
全模式的调用方法是：jieba.cut(text, cut_all=True)，其中 cut_all=True 表示全模式。下面是一个示例：

import jieba

text = "我爱自然语言处理"
words = jieba.cut(text, cut_all=True)
print(list(words))

['我', '爱', '自然', '自然语言', '语言', '处理']

可以看到，ji eba将输入的文本按照全模式的方式分成了6个词语。

搜索引擎模式是一种更加智能的分词模式，它在精确模式的基础上，对长词再次进行切分，适用于搜索引擎等场景。在搜索引擎模式下，jieba分词库会使用最大概率法分出一些比较长的词语，然后在这些长词中再次使用全模式进行切分，最终得到最可能的切分结果。

import jieba

text = "我爱自然语言处理"
words = jieba.cut_for_search(text)
print(list(words))

['我', '爱', '自然', '语言', '自然语言', '处理']

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。