WORD2VEC模型的原理和工作过程是什么？

WORD2VEC模型的工作原理主要为:
i、统计分布假设
WORD2VEC假设如果两个词在相似的语言环境中使用,那么它们的分布也应该相似。

ii、模型 training
WORD2VEC模型通过扫描大规模语料库,统计词汇的共现关系。
通过大量共现信息实现embedding。

iii、嵌入空间
WORD2VEC使用k维空间来表示所有的词汇。
通过神经网络训练参数,获得每个词的k维向量表示。

iv、语义相似性
在k维表示空间中,语义相似的词汇向量越接近。
通过计算向量间的相似度,可以衡量两个词的相似程度。

v、工作过程
WORD2VEC的工作过程主要有:

总的来说,WORD2VEC的工作原理主要包括:

其中:

WORD2VEC通过统计词汇共现关系来捕获语义信息。