1. 视觉和语言的打通 #
如何打通:一个模型,能同时看懂语言和视觉
进阶能力:能输出文字,也能输出图片、视频
好处:视觉转译、融合推理、视觉编辑
2. 视觉识别 与 视觉推理 #
传统视觉识别模型 vs 多模态模型
| 传统视觉识别模型 | 多模态模型 | |
|---|---|---|
| 产品 | Yolo、UNet | Gemini、GPT |
| 优势 | 模型小、部署和使用成本低、识别精度高 | 无需标注、无需训练、直接使用、有推理能力 |
| 劣势 | 需要单独标注数据、训练模型 | 部署和使用成本较高,精度中等 |
3. 视觉生成 #
模型能力不足:只是写提示词给模型,生成的视频&图片无法满足需求。