【白话讲AI】词向量技术详解

词向量是自然语言处理中表示词语的重要技术,它可以把词表示成固定长度的向量,并表示词语之间的关系,具体方法主要有:

  1. one-hot 表示

最简单的词向量表示,用词典长度等长的稀疏向量表示每个词,不同词间向量正交,无法表达词语间关系。

  1. 词共现矩阵

构建词语之间的共现矩阵,用来表示词与词之间的关系,但是矩阵稀疏且维度高。

  1. 分布式表示

利用神经网络学习得到词语的稠密分布式向量表示,也称为词嵌入(word embedding)。这种表示降维且可表示词语语义关系。

  1. Word2Vec

Word2Vec 使用浅层神经网络学习词向量,通过预测目标词的上下文,学习词语含义。结果词向量可用于词义相似度计算等。

  1. GloVe

GloVe 使用词与词共现统计信息训练词向量,通过词共现矩阵反映全局词语关系。其效果通常优于 Word2Vec。

  1. ELMo

ELMo 使用上下文语言模型预训练词向量,使同一词在不同上下文中的词向量各不相同。赋予词语多种含义表达。

  1. BERT

BERT 通过深度双向Transformer编码器预训练词向量,学习词语的上下文关系。它极大地推进了自然语言处理技术进步。

综上所述,词向量可有效表示词语语义信息,是自然语言处理中一项关键技术,也为诸多下游任务提供基础输入表示。