周鸿祎称Sora生成视频堪比CG:未做3D建模 只需文字就可逼真描绘
2024-02-18 19:30:07 时寒峰

  原标题:周鸿祎称Sora生成视频堪比CG:未做3D建模 只需文字就可逼真描绘

  2月18日消息,今日,周鸿祎再次谈到Sora视频模型,他表示Sora生成视频堪比CG。

  周鸿祎发视频称,Sora有三个片段让他觉得非常惊讶。其中一个是一堆金毛小狗在雪地里打滚儿,狗狗用鼻子拱雪,甚至一粒一粒的雪粒都能感觉到,他感觉这个画面非常真实。

  他认为,对比Pika和Runway是做不出这样效果的。Pika和Runbway实际上是基于图形图像本身的操作来进行生成。只是形成一种比较简单的计算机动画的效果。

  周鸿祎说:“即使是用常规呢计算机CG电影工业特效来看这三个画面,那也会非常难做,但是到了Sora这里,这些细节都会变得非常简单,只要给出一些文字的提示要求,就能逼真描绘出来”。

  他认为,Sora是没有做3D建模的。如果Sora也只是用3D建模再进行渲染,那么这和传统的电影工业走的是一样的路,这样就不具备颠覆性和革命性了。

  周鸿祎猜测Sora做到如此效果有三点原因:

  1、Sora模拟了人类观察、描绘、表现世界的方法。如果人类画师用笔画出来这三个场景,人类的大脑里不需要3D建模,因为人类对世界有基本认知。人类可以随意想象出自己要做的事,可以控制自己所想。

  2、Sora在学习的过程中,用了很多视频、电影的内容来作为训练输入。当输入一些画面,不仅要解读出画面的元素,还要解读出一些物理定律。

  openAI的论文中曾提到recaptioning技术,意思是对每一帧画面都能够用文字来描述。这点也正符合人类认知世界的方法。

  3、openAI产生了很多3D内容。不排除它用现在游戏引擎做了很多实时3D模型的渲染,再利用这些3D模型把更多的物理知识训练给Sora。

  周鸿祎表示,Sora是记录文生视频AIGC的工具,它反映了AI对世界的理解,是从文字进入图像,再从图像展示对这个世界3D模型的理解。

投稿:lukejiwang@163.com
点击展开全文
Copyright © 2002-2024 鹿科技