跳过正文

·32 字·1 分钟
Chuck Chan
作者
Chuck Chan
分享技术、思考与生活

1. 视觉和语言的打通
#

如何打通:一个模型,能同时看懂语言和视觉

进阶能力:能输出文字,也能输出图片、视频

好处:视觉转译、融合推理、视觉编辑

2. 视觉识别 与 视觉推理
#

传统视觉识别模型 vs 多模态模型

传统视觉识别模型 多模态模型
产品 Yolo、UNet Gemini、GPT
优势 模型小、部署和使用成本低、识别精度高 无需标注、无需训练、直接使用、有推理能力
劣势 需要单独标注数据、训练模型 部署和使用成本较高,精度中等

3. 视觉生成
#

模型能力不足:只是写提示词给模型,生成的视频&图片无法满足需求。

3.1 用AI做海报
#