从猜词小游戏认识Word2Vec

办公教程导读

收集整理了【从猜词小游戏认识Word2Vec】办公软件教程,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含2102字,纯文字阅读大概需要4分钟

办公教程内容图文

Windows使用教程,Windows系统教程,Windows优化教程

在完全没有范围限制和人工提示的情况下,通过计算机反馈的辅助,网友给出的最接近预设词的是“delicatessen”(熟食),与谜底相似度已经达到了79.20。

Windows使用教程,Windows系统教程,Windows优化教程

Word2Vec是Tomas Mikolov等人于2013年提出的一个词嵌入生成方法。

它在潜在语义分析等方面优于之前的算法,在判断文本相似度、系统推荐、观点分析等方面都具有广泛的应用。

一名研究机器学习的工程师Vatsal在Towards Data Science发布了一篇介绍Word2Vec的文章,并收获了相当不错的关注度。

Windows使用教程,Windows系统教程,Windows优化教程

网友表示:这是一篇很不错的入门介绍,包含了足够的细节和参考资料。

Windows使用教程,Windows系统教程,Windows优化教程

机器可以通过向量内积空间夹角的余弦值来判断对应单词的语义相似度。

当给定了足够大的数据集,Word2Vec可以根据单词在文本中的出现情况,对单词的意思进行判断,评价结果会与语料库中其他单词产生联系。

此外,Word2Vec还可以做类比。例如,“国王”和“女王”算是相似度很高的词语。v(“国王”)-v(“男性”)+v(“女性”)≈v(“女王”)

Windows使用教程,Windows系统教程,Windows优化教程

skip-gram则是将当前单词作为输入,去预测上下文的词。

Windows使用教程,Windows系统教程,Windows优化教程

可见,当给定了文本语料库,目标词是在某个滚动窗口中选择的。目标词和窗口中的其他单词分别组合,形成神经网络的训练数据。

通过对模型进行训练,可以基本得到某个词作为给定目标上下文单词的概率。

上文介绍了Word2Vec的基本原理,那么这个词嵌入法还有什么应用或延伸吗?

Word2Vec的延伸:XXX2Vec

你是否做过MBTI人格测试,或者五大人格特质测试?

这些测试会给参与者一系列问题,然后给不同的几个指标打分,例如:内向-外向。

Windows使用教程,Windows系统教程,Windows优化教程

下面把范围收缩到-1到1:

如果再加上另一个指标,如负责性,那么需要再添加一个坐标轴。

当我们把前文所示的五个主要的人格特征都进行统计分析,会得到:

我们可以对不同的人进行测试,并收集测试结果,如:

Word2Vec可以比较不同单词的意思,同理,我们可以运用向量余弦相似度比较不同个体的个
性:

显然,Jay和另一个“测试者1”的性格更相似。

上文展示了将性格向量化,即Personality2Vec。

其实近年来,已经衍生出了2vec的不同变种,例如有的利用段落信息,有的利用整个文本的信息,有的则是在更高维度的item上进行2vec操作。

其中,Paragraph2vec基于CBOW,把段落的ID作为属性也纳入计算当中。

深度学习的表征能力很好,但是工程师们需要耗费大量的时间来选择特征。

未来应该会有更多的*2Vec诞生,在一个概念比较抽象、复杂时,通过向量化进入另外一个N维空间也许会带给人们一些启发。

看到这里,你是否想试试文章开头提到的猜词游戏?万一中了呢?:)

游戏链接:
https://semantle.pimanrul.es/

参考链接:
[1]. https://towardsdatascience.com/Word2Vec-explained-49c52b4ccb71
[2]. https://jalammar.github.io/illustrated-Word2Vec/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

办公教程总结

以上是为您收集整理的【从猜词小游戏认识Word2Vec】办公软件教程的全部内容,希望文章能够帮你了解办公软件教程从猜词小游戏认识Word2Vec
如果觉得办公软件教程内容还不错,欢迎将网站推荐给好友。

hmoban主题是根据ripro二开的主题,极致后台体验,无插件,集成会员系统
自学咖网 » 从猜词小游戏认识Word2Vec