Hugging Face #
Hugging Face 是什么?你可以把HuggingFace看成:
- AI 界的 GitHub:程序员找代码去 GitHub,AI 工程师找模型和数据去 HuggingFace,它托管了全球最主流的开源模型(Llama, BERT, Stable Diffusion 等)。
- AI 界的 App Store:它提供了很多现成的 Pipeline,你不需要懂原理,就能在你的代码里跑起来(比如一键实现情感分析)。
Hugging Face 的核心 #
1)Transformers (库):
工具箱。提供了统一的 Python 接口,可以用几乎相同的代码加载 BERT、GPT 或 Llama。
2)Model Hub (网站):
仓库。存放模型权重文件(.bin 或 .safetensors)和配置文件(config.json)。
3)Datasets (库):
燃料库。一键下载维基百科、医疗问答、电商评论等海量数据集,并自动处理成模型能读的格式。
Hugging Face 中常用的模型 #
NLP(自然语言处理)领域 #
基础理解类(Encoder-Only):
- BERT / RoBERTa:文本分类、命名实体识别(NER)的首选经典。
- DistilBERT:BERT 的轻量化版本,推理速度更快,适合端侧应用。
生成类(Decoder-Only / 大语言模型):
- Llama 系列 (Meta):目前最主流的开源大模型,适合对话、逻辑推理。
- Qwen 系列 (阿里):中文能力极强,开源社区的热门选择。
- DeepSeek 系列:近期极具性价比的国产模型,常用于生成和思考任务。
- GPT-2:虽然较老,但因其轻量,常作为教学文本生成的入门案例。
翻译与摘要(Encoder-Decoder):
- T5 / FLAN-T5:能够将所有 NLP 任务转换为“文本到文本”的格式。
- BART:擅长文本纠错和长文档摘要。
CV(计算机视觉)与多模态领域 #
- ViT (Vision Transformer):图像分类的标杆。
- Stable Diffusion:目前最火的开源图像生成模型。
- CLIP (OpenAI):连接文本与图像,常用于以图搜图或零样本分类。
Hugging Face 中常用的数据集 #
| 任务类型 | 常用数据集名称 | 简介 |
|---|---|---|
| 情感分析 | IMDb / Amazon Polarity | 5万条电影评论/3500万条商品评论,带正负标签。 |
| 问答系统 | SQuAD / CoQA | 斯坦福问答数据集,用于训练模型提取文章中的答案。 |
| 大模型预训练 | FineWeb / C4 | 数千亿词规模的清洗后网页文本,是大模型进化的基石。 |
| 代码生成 | MBPP / CodeContests | 包含数千个编程问题及其正确答案。 |
| 语音识别 | Common Voice | Common Voice |
| 中文特定 | CLUECorpusSmall | 常用中文通用语料库,适合初学者训练中文小模型。 |
Pipeline:一行代码实现AI功能 #
Pipeline 是什么?它是一个全自动的黑盒。当你把文本扔进去,它自动帮你完成三个繁琐的步骤:
- 预处理 (Tokenizer):把文本变成数字。
- 模型推理 (Model):模型进行计算,输出一堆看不懂的分数(Logits)。
- 后处理 (Post-processing):把分数变成人类能看懂的标签(比如 “Positive”, 99%)。
微调 #
HuggingFace 上模型那么多,我直接拿来用不行吗?为什么非要自己训练呢?
Pre-training (预训练) = 大学通识教育。
- 模型(比如 BERT)读了海量的维基百科、书籍。
- 能力:它懂语法,懂成语,知道“苹果”既是水果也是公司。
- 局限:它不知道你公司具体的业务逻辑。
Fine-tuning (微调) = 岗前专业培训。
- 动作:在预训练模型的基础上,用你特定领域的数据再训练一小会儿。
- 目标:让它从“懂中文的毕业生”变成“懂医疗发票的审核员”。
场景举例:通用模型搞不定的事
- 通用 BERT:看到“CT显示肺部纹理增多”,它知道这是一句话。
- 医疗微调 BERT:能精准识别出 CT (检查项), 肺部 (解剖部位), 纹理增多 (临床表现)。
- 垃圾邮件场景:通用模型可能觉得“恭喜您中奖了”是句好话(Positive),但在我们的业务里,它是 100% 的垃圾邮件(Spam)。