↓ 跳过正文

January 1, 1·162 字·1 分钟

作者

Chuck Chan

分享技术、思考与生活

目录

目录

Hugging Face
#

Hugging Face 是什么？你可以把HuggingFace看成：

AI 界的 GitHub：程序员找代码去 GitHub，AI 工程师找模型和数据去 HuggingFace，它托管了全球最主流的开源模型（Llama, BERT, Stable Diffusion 等）。
AI 界的 App Store：它提供了很多现成的 Pipeline，你不需要懂原理，就能在你的代码里跑起来（比如一键实现情感分析）。

Hugging Face 的核心
#

1）Transformers (库)：

工具箱。提供了统一的 Python 接口，可以用几乎相同的代码加载 BERT、GPT 或 Llama。

2）Model Hub (网站)：

仓库。存放模型权重文件（.bin 或 .safetensors）和配置文件（config.json）。

3）Datasets (库)：

燃料库。一键下载维基百科、医疗问答、电商评论等海量数据集，并自动处理成模型能读的格式。

Hugging Face 中常用的模型
#

NLP（自然语言处理）领域
#

基础理解类（Encoder-Only）：

BERT / RoBERTa：文本分类、命名实体识别（NER）的首选经典。
DistilBERT：BERT 的轻量化版本，推理速度更快，适合端侧应用。

生成类（Decoder-Only / 大语言模型）：

Llama 系列 (Meta)：目前最主流的开源大模型，适合对话、逻辑推理。
Qwen 系列 (阿里)：中文能力极强，开源社区的热门选择。
DeepSeek 系列：近期极具性价比的国产模型，常用于生成和思考任务。
GPT-2：虽然较老，但因其轻量，常作为教学文本生成的入门案例。

翻译与摘要（Encoder-Decoder）：

T5 / FLAN-T5：能够将所有 NLP 任务转换为“文本到文本”的格式。
BART：擅长文本纠错和长文档摘要。

CV（计算机视觉）与多模态领域
#

ViT (Vision Transformer)：图像分类的标杆。
Stable Diffusion：目前最火的开源图像生成模型。
CLIP (OpenAI)：连接文本与图像，常用于以图搜图或零样本分类。

Hugging Face 中常用的数据集
#

任务类型	常用数据集名称	简介
情感分析	IMDb / Amazon Polarity	5万条电影评论/3500万条商品评论，带正负标签。
问答系统	SQuAD / CoQA	斯坦福问答数据集，用于训练模型提取文章中的答案。
大模型预训练	FineWeb / C4	数千亿词规模的清洗后网页文本，是大模型进化的基石。
代码生成	MBPP / CodeContests	包含数千个编程问题及其正确答案。
语音识别	Common Voice	Common Voice
中文特定	CLUECorpusSmall	常用中文通用语料库，适合初学者训练中文小模型。

Pipeline：一行代码实现AI功能
#

Pipeline 是什么？它是一个全自动的黑盒。当你把文本扔进去，它自动帮你完成三个繁琐的步骤：

预处理 (Tokenizer)：把文本变成数字。
模型推理 (Model)：模型进行计算，输出一堆看不懂的分数（Logits）。
后处理 (Post-processing)：把分数变成人类能看懂的标签（比如 “Positive”, 99%）。

微调
#

HuggingFace 上模型那么多，我直接拿来用不行吗？为什么非要自己训练呢？

Pre-training (预训练) = 大学通识教育。

模型（比如 BERT）读了海量的维基百科、书籍。
能力：它懂语法，懂成语，知道“苹果”既是水果也是公司。
局限：它不知道你公司具体的业务逻辑。

Fine-tuning (微调) = 岗前专业培训。

动作：在预训练模型的基础上，用你特定领域的数据再训练一小会儿。
目标：让它从“懂中文的毕业生”变成“懂医疗发票的审核员”。

场景举例：通用模型搞不定的事

通用 BERT：看到“CT显示肺部纹理增多”，它知道这是一句话。
医疗微调 BERT：能精准识别出 CT (检查项), 肺部 (解剖部位), 纹理增多 (临床表现)。
垃圾邮件场景：通用模型可能觉得“恭喜您中奖了”是句好话（Positive），但在我们的业务里，它是 100% 的垃圾邮件（Spam）。