“O”:视频输出。2023年,我们看到了文字到视频合成的浪潮:WALT(谷歌)、EmuVideo(Meta)、Align Your Latents(英伟达)、Pika等等,数不胜数。然而,大多数生成的片段仍然很短。我将它们视为AI视频的“系统1”——“无意识”的局部像素运动。
4. 机器人将加速发展。Optimus将取得巨大进步,许多其他机器人公司也将发布更新。
什么是MEG
斐乐,淘宝店播首个破亿品牌
2、LLaVA、CogAgent和BakLLaVA是三种具有极大潜力的开源视觉语言模型。