让Sora多飞一会儿-AI资讯-资讯-创佳网

2月22日消息，OpenAI的文生视频模型Sora案例视频集一经推出，就成为科技圈的热门话题。

继ChatGPT后，Sora的文生视频能力再次惊艳AI圈子，大有不谈Sora就out了的氛围。

Sora文生视频效果惊艳

根据OpenAI官方给出的介绍，Sora是一个通用的视觉数据模型，它可以生成不同持续时间、宽高比和分辨率的视频和图像，最高可达一分钟的高清视频。

OpenAI发布了48个视频，这些均是由Sora模型（Creating video from text）通过对文字理解而生成的视频。

第一个视频就是根据文本：“一位时尚的女士走在东京的街道上，街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果。许多行人走来走去。”（Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.）生成的视频。

Sora出现之前，在文生视频领域，美国初创企业Runway和Pika被认为是视频生成赛道的领先者。

然而，Sora的出现，瞬间秒杀了“领先者”们。

从公布的视频来看，Sora通过文字生成的视频表现明显突出：

首先，时长更长。Sora生成60秒视频，Pika是3秒，Runway是4秒；

第二，Sora的视频有多角度镜头，分镜切换符合逻辑，并且视频主体移动时与背景保持高度稳定和流畅；

第三，Sora的视频对光影反射、运动方式、镜头移动等细节处理得更好。

总之，就是Sora生成的视频极大地提升了视频的“真实感”，让人看了感觉像是真实拍摄的。

继“有图有真相”破碎后，视频也不再等于真相了。

目前，OpenAI尚未向公众开放Sora，仅对部分研究人员和学者开放测试资格。

国内用户无渠道参与试用Sora。

但这也不妨碍科技圈大牛们对Sora的研究兴趣。

OpenAI 官网上公开的信息，48个Sora文生视频案例、Sora的技术报告《Video generation models as world simulators》(中文译《把视频生成模型作为世界模拟器》)成为各方人士研究Sora的主要抓手和窗口。

多少有些隔岸旁观、盲人摸象的感觉，短短几天，对Sora的关注和讨论就形成了多个“派别”。

技术派：挖掘Sora背后的技术逻辑

国外社交媒体上的AI大牛，国内微博技术大V、知乎技术博主们纷纷发文分析Sora的核心技术。

这些分析主要根据OpenAI给的技术报告《Video generation models as world simulators》及报告中罗列的32篇技术文献提及的技术而来。

技术大牛们挖掘出的Sora模型创新主要有2个关键：

一， Spacetime Patch（时空Patch）技术

技术报告原文：LLMs have text tokens, Sora has visual patches.

解放思想，从大型语言模型中获得灵感。

如同LLM将各种类型的文本内容转化为Tokens后，实现对大规模文本内容的训练；

用Spacetime Patch对所有类型的视频内容进行统一表示，进而能够对视频生成模型进行大规模数据训练。

图片来源于《Video generation models as world simulators》

值得注意的是，Spacetime Patch除了包括视频信息元素的空间信息还有时间信息。

图片就是单帧的视频，把图片按正确的发生时间顺序显示出来，就将是一个逻辑正确的视频。

二， Diffusion Transformer（DiT，扩散型 Transformer）架构。

技术报告原文：Sora is a diffusion transformer。

和其他文生视频产品所用的底层架构不同，Sora 使用的是Diffusion Transformer架构。

Diffusion Transformer论文（26号论文）的作者之一William Peebles，现在是OpenAI工程师，负责开发Sora。

《Video generation models as world simulators》罗列的技术文献

Sora能获取现有的静态图像并从中生成视频，还能获取现有视频，进行扩展或填充缺失内容。

技术大牛们认为，Transformer强在前后文的理解和保持连续性，这让Sora在时间轴上的延伸性非常出色，可以生成开头不同但结尾完全一致的视频片段。

哲思派：人工智能的能力到了什么阶段？

以周鸿祎为代表的国内技术大佬们对AI能力进化的思考又进一步。

Sora生成的视频发布后，周鸿祎就称“Sora意味着AGI实现将从10年缩短到两三年”。

此后，短短3天时间，周鸿祎已发布7个小视频来阐述自己对Sora的思考。

周鸿祎认为，“Sora应该还是模拟了人类去观察世界、描绘世界和表现世界的方法。”

“Sora表面上是一个文生视频的工具，实际上是一个现实世界模拟器。它也不仅仅是用来模拟现实世界，它意味着通用人工智能对这个世界的理解能力又一次得到了突破。GPT对人类语言和知识的理解达到了一个突破点，而除了人类的语言和这个世界的人类之间做交互的知识之外，这个世界还有很多规律，人工智能对物理世界的规律缺乏理解的话，那么它是残缺的，不可能真正变成通用人工智能。”

“Sora做出的视频之所以让人感觉真是，不是画面有多优美，是因为让人类看起来，所有的动作是符合这个世界的运行规律的。它对这个世界的规律有了一个比较更为完整的了解。这就说明人工智能的能力又上了一个台阶。”

搞钱派：售卖课程、追涨股票、投资建厂搞芯片

现在，针对Sora热搜引发的“搞钱派”也分不同段位。

最基本的一类是，根据信息差来卖课、卖账号的。

Sora根本还没对外开放使用，现在就来这样搞钱实在太无厘头了。

然而，还真有人买单。

某电商平台26.6元的学习包，居然已经售出10多份。

第二类是追涨AI概念股搞钱的，人也不少。

春节后A股开门红，AI相关概念股全线上扬，Sora板块多模态模型概念、ChatGPT、虚拟人、AIGC、算力等相关概念均有所上涨，算是给A股的朋友们一个新年红包。

最高段位的，还是直接针对大模型“核心能力”—— 算力出奇迹进行投资的富豪们。

上图从左往右分别是Sora使用 1 倍资源、4 倍资源、16 倍资源训练时的生成效果。

图片来自《Video generation models as world simulators》

可见，算力，仍然是卡住AI发展脖子的角色。

就在Sora发布后，软银创始人孙正义正寻求筹资1000亿美元（约合人民币7000亿元），用于创立一家AI芯片企业，旨在挑战英伟达的消息传出。

OpenAI创始人 Sam Altman筹建7万亿打造AI芯片帝国的计划也被曝出向美政府寻求政策支持。

找差距、威胁派

就在Sora露面后的2天，2月18日，国家互联网信息办公室关于发布第四批深度合成服务算法备案信息，该批共有266个算法通过备案。此前三批分别有41、110、129个算法通过备案。

这意味着截至目前，国内总计已经有546款深度合成服务算法获得备案。

追问“国内何时有自己的Sora？”“国内企业距离赶上Sora还要多久？”的声音毫无意外的再次响起。

当然，Sora生成视频太逼真而引发犯罪不可控的担忧声也不少，生成的视频是否会影响到人身安全、社会稳定、企业安全等等。

迎接“Sora们”开放，法律、社会、技术等层面是否都做好了准备？

如IDC分析师所言，生成式AI产品不可预测的未来：具体哪些公司能在什么时间点推出与 Sora 类似的产品，不可预测。当前 Sora 生成的是1分钟的视频，下一步何时能生成2分钟5分钟以上的视频，不可预测。

但是，对于个人而言，生成式AI产品已经在潜移默化的改变我们的生活方式，每一个人都可以认真考虑该类产品如何能够助力我们的生活与工作。

还是那句话，每一项新技术进入人们的生活时，总是伴随着兴奋和质疑。那么就让Sora们多飞一会儿！

Warning: Invalid argument supplied for foreach() in /home/wwwroot/www/chjia.com/goods.php on line 841

Sora sora ai sora v2 sora视频 sora模型 sora教程 sora软件 soraumi sora鼠标 sora视频生成 sora下载 OpenAI AI

魅族宣布不再做手机，All in AI还来得及吗？

假期复工第一天，魅族就迫不及待放了大招。魅族官方微博发布公告，停止传统智能手机（魅族21Pro、魅族22、魅族23等）新项目的开发，后续将AllinAI，把精力转投到新的AI设备探索上。至于下一部AI硬件设备是什么，魅族...

腾讯混元大模型已开始内测近期将正式对外发布

9月5日消息，据报道，在2023智博会上，腾讯集团副总裁、政企业务总裁李强透露，近期MiniMax和百川智能旗下的大模型都使用了腾讯的算力，而腾讯内部正在进行自研的混元大模型研发，几个月前就已经开始内测，近期会正...

李彦宏心中的AI原生时代行动指南是什么

作者|北方近期，百度创始人、董事长兼首席执行官李彦宏多次谈及对AI原生时代的思考，面向企业家和创业者，明确提出了「拥抱AI时代，需要一把手驱动」的观点，在他看来，当前行业中已经充斥着太多大模型，而真正能对...

字节终于等来了“豆包”

自ChatGPT问世后，国内互联网和科技领域迎来了久违的“狂欢”。BAT级别的巨头引领潮流，京东、360、网易紧随其后，商汤科技、科大讯飞、出门问问等AI企业纷纷入场，李开复、王慧文、王小川等大佬“另立门户”，还有...

黄仁勋：「核弹工厂」即将上线，要让所有人用上生成式 AI

「20年前我们推出了RTX显卡，5年前我们将图形计算与AI结合，推出了「星战」Demo。」美国当地时间8月8日早上，英伟达创始人、CEO黄仁勋在世界计算机图形会议SIGGRAPH2023上，开场回顾了英伟达在图形计算上的高光时刻...

让Sora多飞一会儿

如何选购kawai电钢琴？？2023年kawai选购攻略大全来了！

苹果招募生成式AI人才提供数十个大模型岗位

昆仑万维旗下Opera生成式AI服务海外用户数突破100万

创始人王慧文退出美团成AI公司光年之外唯一股东

让Sora多飞一会儿

如何选购kawai电钢琴？？2023年kawai选购攻略大全来了！

苹果招募生成式AI人才 提供数十个大模型岗位

昆仑万维旗下Opera生成式AI服务海外用户数突破100万

创始人王慧文退出 美团成AI公司光年之外唯一股东

苹果招募生成式AI人才提供数十个大模型岗位

创始人王慧文退出美团成AI公司光年之外唯一股东