本文介绍: Tokenization其实是为数值化作准备数值化的过程必然需要映射,而映射需要一个目标集合或者说映射表。

参考:NLP中的Tokenization – 知乎

1、Tokenization的难点

        Tokenization其实是为数值化作准备,数值化的过程必然需要映射,而映射又需要一个目标集合或者说映射表。

2、三类Tokenization方法      

        本节我们来讨论词粒度的相关方法。词粒度的切分就跟人类平时理解文本原理一样,可以用一些工具来完成,例如英文的NLTK、SpaCy,中文的jieba、HanLP等。

       词粒度Tokenization我们人类阅读时自然而然地切分是一致的。

       这种方法的优点是,能够很好地保留 词的语义和边界信息

       对于英文等拉丁语系的词粒度Tokenization简单我们可以直接按照空格便能水到渠成地切出来,但是针对中日韩这类文字是无法通过空格进行切分的,这时针对这类语言文字我们便需要用到一些分词方法。这些方法一类是使用模型学习如何分词的,另一类是

原文地址:https://blog.csdn.net/Trance95/article/details/134662222

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如若转载,请注明出处:http://www.7code.cn/show_4975.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注