↓ 跳过正文

January 1, 1·32 字·1 分钟

作者

Chuck Chan

分享技术、思考与生活

目录

目录

1. 视觉和语言的打通
#

如何打通：一个模型，能同时看懂语言和视觉

进阶能力：能输出文字，也能输出图片、视频

好处：视觉转译、融合推理、视觉编辑

2. 视觉识别与视觉推理
#

传统视觉识别模型 vs 多模态模型

	传统视觉识别模型	多模态模型
产品	Yolo、UNet	Gemini、GPT
优势	模型小、部署和使用成本低、识别精度高	无需标注、无需训练、直接使用、有推理能力
劣势	需要单独标注数据、训练模型	部署和使用成本较高，精度中等

3. 视觉生成
#

模型能力不足：只是写提示词给模型，生成的视频&图片无法满足需求。

3.1 用AI做海报
#