词嵌入Word Embedding

互联网 1 年前 0 0

本文介绍: 1122

词嵌入定义为NLP中语言建模和特征学习技术的总称，是一种将文本中的词汇转化成数值向量的方法(将字典中的单词和词组映射成实向量)。
on e–h o t 编码存在的一个主要问题是它无法表示出词汇间的相似度。

分布式表示试图通过考虑上下文词汇间的关系来捕捉词汇语义。分布式表示的目标是找出一个通用的转换函数，把词汇转换成(与它关联的)向量，使它们之间的相似性符合词汇间语义的相性。

word2v ec 是一个模型组，这些模型是无监督的，它以大型文本语料作为输入，并生成词汇的向量空间。其向量空间的维度通常低于o n e–h o t 编码的字典大小的向量空间维度。尽管word2v ec 创建了用于深度学习NLP模型的向量，但它却是浅层NN。

word2v ec将每个词表示成一个定长的向量，并使得这些向量能较好地表达不同词之间的相似和类比关系。它主要包含了下面两个模型：

skip–g ram 模型训练的目标是通过给定的当前词(中心词)来预测周围词。skip–g ram 方法会对正样例可能性的结果池进行随机采样；对用于生成负样例的负样本取样处理，会包含从文本中随机组对的任意 token。

CBOW(Co n ti nuous Ba g Of Wo rds)模型通过周围的词汇预测当前词，且上下文词汇的顺序不会影响预测结果(即词袋的假定)。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

分布式向量词汇

相关文章

【NLP 自然语言处理(一)—词向量】

【NLP 自然语言处理(一)—词向量】

互联网 1 年前 6

redisson源码解析

redis 1 年前 9

缓存和分布式锁笔记

缓存 1 年前 5

JAVA面试题之三分布式和微服务的区别是什么？

JAVA面试题之三分布式和微服务的区别是什么？

java 1 年前 8

大数据Zookeeper–案例

大数据Zookeeper–案例

大数据 1 年前 6

Redisson看门狗机制

redis 1 年前 3

JVM之GC垃圾回收

互联网 1 年前 4

行为型设计模式—中介者模式

互联网 1 年前 5

发表回复取消回复