跳过正文

·162 字·1 分钟
Chuck Chan
作者
Chuck Chan
分享技术、思考与生活

Hugging Face
#

Hugging Face 是什么?你可以把HuggingFace看成:

  • AI 界的 GitHub:程序员找代码去 GitHub,AI 工程师找模型和数据去 HuggingFace,它托管了全球最主流的开源模型(Llama, BERT, Stable Diffusion 等)。
  • AI 界的 App Store:它提供了很多现成的 Pipeline,你不需要懂原理,就能在你的代码里跑起来(比如一键实现情感分析)。

Hugging Face 的核心
#

1)Transformers (库):

工具箱。提供了统一的 Python 接口,可以用几乎相同的代码加载 BERT、GPT 或 Llama。

2)Model Hub (网站):

仓库。存放模型权重文件(.bin 或 .safetensors)和配置文件(config.json)。

3)Datasets (库):

燃料库。一键下载维基百科、医疗问答、电商评论等海量数据集,并自动处理成模型能读的格式。

Hugging Face 中常用的模型
#

NLP(自然语言处理)领域
#

基础理解类(Encoder-Only):

  1. BERT / RoBERTa:文本分类、命名实体识别(NER)的首选经典。
  2. DistilBERT:BERT 的轻量化版本,推理速度更快,适合端侧应用。

生成类(Decoder-Only / 大语言模型):

  1. Llama 系列 (Meta):目前最主流的开源大模型,适合对话、逻辑推理。
  2. Qwen 系列 (阿里):中文能力极强,开源社区的热门选择。
  3. DeepSeek 系列:近期极具性价比的国产模型,常用于生成和思考任务。
  4. GPT-2:虽然较老,但因其轻量,常作为教学文本生成的入门案例。

翻译与摘要(Encoder-Decoder):

  1. T5 / FLAN-T5:能够将所有 NLP 任务转换为“文本到文本”的格式。
  2. BART:擅长文本纠错和长文档摘要。

CV(计算机视觉)与多模态领域
#

  1. ViT (Vision Transformer):图像分类的标杆。
  2. Stable Diffusion:目前最火的开源图像生成模型。
  3. CLIP (OpenAI):连接文本与图像,常用于以图搜图或零样本分类。

Hugging Face 中常用的数据集
#

任务类型 常用数据集名称 简介
情感分析 IMDb / Amazon Polarity 5万条电影评论/3500万条商品评论,带正负标签。
问答系统 SQuAD / CoQA 斯坦福问答数据集,用于训练模型提取文章中的答案。
大模型预训练 FineWeb / C4 数千亿词规模的清洗后网页文本,是大模型进化的基石。
代码生成 MBPP / CodeContests 包含数千个编程问题及其正确答案。
语音识别 Common Voice Common Voice
中文特定 CLUECorpusSmall 常用中文通用语料库,适合初学者训练中文小模型。

Pipeline:一行代码实现AI功能
#

Pipeline 是什么?它是一个全自动的黑盒。当你把文本扔进去,它自动帮你完成三个繁琐的步骤:

  1. 预处理 (Tokenizer):把文本变成数字。
  2. 模型推理 (Model):模型进行计算,输出一堆看不懂的分数(Logits)。
  3. 后处理 (Post-processing):把分数变成人类能看懂的标签(比如 “Positive”, 99%)。

微调
#

HuggingFace 上模型那么多,我直接拿来用不行吗?为什么非要自己训练呢?

Pre-training (预训练) = 大学通识教育。

  • 模型(比如 BERT)读了海量的维基百科、书籍。
  • 能力:它懂语法,懂成语,知道“苹果”既是水果也是公司。
  • 局限:它不知道你公司具体的业务逻辑。

Fine-tuning (微调) = 岗前专业培训。

  • 动作:在预训练模型的基础上,用你特定领域的数据再训练一小会儿。
  • 目标:让它从“懂中文的毕业生”变成“懂医疗发票的审核员”。

场景举例:通用模型搞不定的事

  • 通用 BERT:看到“CT显示肺部纹理增多”,它知道这是一句话。
  • 医疗微调 BERT:能精准识别出 CT (检查项), 肺部 (解剖部位), 纹理增多 (临床表现)。
  • 垃圾邮件场景:通用模型可能觉得“恭喜您中奖了”是句好话(Positive),但在我们的业务里,它是 100% 的垃圾邮件(Spam)。