朴素贝叶斯文本分类的主要实现步骤为:
一、构建词汇表
遍历整个文本集合,为每个不同的词构建一个索引,形成词汇表。
二、词袋模型表示文本
根据词汇表,将每个文本表示为一个向量。
值为1表示文本中含有该词,否则为0。
三、计算先验概率
统计每个分类下文本的数目,计算分类的先验概率P(C)。
四、计算条件概率
基于频数,计算每个分类中每个词的条件概率P(w|C)。
加上平滑。
五、分类器训练
求解所有先验概率P(C) 和 条件概率P(w|C)。
完成分类器的训练。
六、文本分类
对新文本,也表示为词袋模型。
然后计算:
P(C|w1,...,wn) ∝ P(C)P(w1|C)...P(wn|C)
概率最大的C即为文本属于的分类。
总的来说,朴素贝叶斯文本分类的主要步骤为:
- 构建词汇表
- 将文本表示为词袋模型
- 计算每个分类的先验概率
- 计算每个分类中每个词的条件概率
- 求解所有先验概率和条件概率,完成训练
- 对新文本也表示为词袋模型
- 计算每个分类的后验概率
- 选择后验概率最大的分类
其中关键在于:
- 创建词汇表
- 根据词汇表索引文本
- 计算先验概率
- 计算条件概率
- 根据后验概率公式实现分类