商汤发布首个“可控”人物视频大模型

星阁 • 2024年07月05日 16:43 • 财经

7 月 4 日电 2024 世界人工智能大会（WAIC 2024）4 日在上海开幕，商汤科技推出首个向广大用户开放的可控人物视频生成大模型 Vimi，该模型更获颁 WAIC 展览展示最高荣誉“镇馆之宝”殊荣，成为本届大会最具创新展品。Vimi 基于商汤日日新大模型的强大能力，只需要一张任何风格的照片就能生成和目标动作一致的人物类短片，并支持多种驱动方式，可通过已有的人物影片、动画、声音、文字等多种元素进行驱动。

商汤发布首个“可控”人物视频大模型

Vimi 可通过一张照片生成人物短片

随着大模型和生成式 AI 技术快速发展，让照片中的人物动起来已不是新鲜事，但目前市面上相关产品的实际应用仍存在挑战，包括：

• 人物动作、表情动作无法精准控制，只能频繁尝试各种 Prompt。

• 效果不稳定，人物外貌、背景效果变幻莫测。

• 时长有限，只能生成 3 至 4 秒短片等，无法满足广大短片创作者的需要。

为解决这些实际应用问题，商汤可控人物视频生成大模型 Vimi 应运而生。与图片表情控制类技术只能控制面部表情动作不同，Vimi 不但可以实现精准的人物表情控制，还可控制照片中人物上半身的自然肢体动作，并自动生成与人物相符的头发、服饰及背景变化。同时光影变化也能做到合理生成，让人物动作和视觉效果流畅自然，画面和谐唯美。更重要的是，Vimi 具备极强的稳定性，可稳定生成长达 1 分钟的单镜头人物类短片，画面效果不会随着时间变化而降低品质或失真，真正满足娱乐互动等需要长时间稳定短片生成的需要。

Vimi 将完全向广大用户开放使用。用户只需上传不同角度的高清人物照片，即可自动生成数字分身和不同风格的写真短片。由 Vimi 生成的短片人物不再只是呆板的五官运动，而是搭配手势、肢体动作、头发等，形成更完整的人物动作，让创作者可基于生成的短片素材进行剪辑和二次创作。

针对喜爱自拍的用户，Vimi 支持聊天、唱歌、舞动等多种娱乐互动场景；对于热衷表情包的用户而言，Vimi 通过单张图片即可驱动生成各种具趣味的人物表情包，玩法多样，实现创作自由。此外，Vimi 亦提供唯美写真风、奇幻风等多种生成风格，让用户仿佛穿越不同次元，享受富电影感的沉浸式视觉体验。（完）

原创文章，作者：星阁，如若转载，请注明出处：http://www.xgrl.net/n/202407051643261878.shtml