文本分类
#2025/12/30 #ai
目录
文本分类概述
文本分类是 NLP 中的一项常见任务。该任务的目标是训练一个模型,为输入的文本分配标签或类别(见图 4-1)。
从情感分析和意图识别,到实体提取和语言检测,文本分类在全球范围内被广泛应用。
表示模型和生成模型在文本分类中的重要作用不容忽视。

图 4-1:使用语言模型进行文本分类
本章将介绍几种使用语言模型进行文本分类的方法
我们将重点关注如何利用预训练语言模型(已经在大量数据上训练过的模型)来完成文本分类任务。

图 4-2:虽然
表示模型和生成模型都可用于分类,但它们的方法不同
电影评论的情感分析
详见 1. 电影评论的情感分析
使用表示模型进行文本分类
模型选择
详见 3. 模型选择
使用特定任务模型
详见 4. 使用特定任务模型
利用嵌入向量的分类任务
详见 5. 利用嵌入向量的分类任务
另需要补充的初高中知识点: 6. 余弦相似度如何衡量高维向量的接近度
使用生成模型进行文本分类
小结
- 了执行各种分类任务的技术:
- 从对整个模型进行微调,到完全不进行微调。
- 使用生成模型和表示模型进行文本分类
- 两种类型的表示模型:特定任务模型和嵌入模型。
特定任务模型是在大型数据集上专门针对情感分析进行预训练的,- 它表明
预训练模型对文档分类而言是一种很好的技术。
- 它表明
嵌入模型用于生成通用嵌入向量,我们将其作为训练分类器的输入。
- 两种类型的生成模型:
- ① 开源的编码器 - 解码器模型(FLAN-T5)
- ② 专有的仅解码器模型(GPT-3.5)。
- 我们在文本分类中使用这些生成模型时,无须在领域数据或标记数据集上进行特定的(额外)训练。