文本特征提取的主要方法包括:
一、词袋模型(Bag of Words)
- 构建词汇表:统计每个单词出现的频率
- 文本向量化:根据词汇表,每个文档转换为固定维度的向量
- 用稀疏向量表示:将不常见的单词忽略
二、TF-IDF
- 计算单词在当前文档中的出现频率(TF)
- 计算单词在所有文档中的出现频率(IDF)
- 将TF和IDF的乘积作为单词的重要性
三、n-gram
- 从文本中提取连续的 n 个词
- 可提取:单词、词组、短语等
- 常见的有:uni-gram,bi-gram,tri-gram
四、Part of Speech(词性标注)
- 抽取不同词性的词,如名称、动词等
- 不同词性的词对应不同的特征
- 提高分类器能力
五、依存关系
- 提取句法依存关系
- 标注词汇与词汇之间的语义关系
- 扩展了词袋模型
六、句法树
- 提取句法概念,如 constituent、chunk etc.
- 表示文本句法结构的性质
- 提取统计属性
总的来说,文本特征提取的主要方法有:
- 词袋模型(基础)
- TF-IDF (考虑单词重要性)
- n-gram (连续短语)
- 词性标注(不同词性)
- 依存关系(句法依存)
- 句法树(句法结构)
它们可以互相结合,充分挖掘文本信息。