WORD2VEC模型的工作原理主要为:
i、统计分布假设
WORD2VEC假设如果两个词在相似的语言环境中使用,那么它们的分布也应该相似。
ii、模型 training
WORD2VEC模型通过扫描大规模语料库,统计词汇的共现关系。
通过大量共现信息实现embedding。
iii、嵌入空间
WORD2VEC使用k维空间来表示所有的词汇。
通过神经网络训练参数,获得每个词的k维向量表示。
iv、语义相似性
在k维表示空间中,语义相似的词汇向量越接近。
通过计算向量间的相似度,可以衡量两个词的相似程度。
v、工作过程
WORD2VEC的工作过程主要有:
- 根据训练语料,构建一个词到词的共现矩阵
- 通过神经网络训练embedding的向量表示
- 得到所有词汇的向量表示
- 可以计算向量间的相似度,衡量语义相似性
总的来说,WORD2VEC的工作原理主要包括:
- 假设语义相似的词汇在类似语境中使用
- 通过大量共现信息来训练词向量
- 使用k维空间表示所有词汇的含义
- 语义相似的词汇向量越近
- 构建共现矩阵 => 训练embedding => 获得向量表示 => 计算相似度
其中:
- 共现关系反映词汇之间的语义关系
- 神经网络训练确定每个词的向量表示
- 向量间距离代表词汇间的语义距离
WORD2VEC通过统计词汇共现关系来捕获语义信息。