让Sora多飞一会儿
2月22日消息,OpenAI的文生视频模型Sora案例视频集一经推出,就成为科技圈的热门话题。
继ChatGPT后,Sora的文生视频能力再次惊艳AI圈子,大有不谈Sora就out了的氛围。
Sora文生视频效果惊艳
根据OpenAI官方给出的介绍,Sora是一个通用的视觉数据模型,它可以生成不同持续时间、宽高比和分辨率的视频和图像,最高可达一分钟的高清视频。
OpenAI发布了48个视频,这些均是由Sora模型(Creating video from text)通过对文字理解而生成的视频。
第一个视频就是根据文本:“一位时尚的女士走在东京的街道上,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人走来走去。”(Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)生成的视频。
Sora出现之前,在文生视频领域,美国初创企业Runway和Pika被认为是视频生成赛道的领先者。
然而,Sora的出现,瞬间秒杀了“领先者”们。
从公布的视频来看,Sora通过文字生成的视频表现明显突出:
首先,时长更长。Sora生成60秒视频,Pika是3秒,Runway是4秒;
第二,Sora的视频有多角度镜头,分镜切换符合逻辑,并且视频主体移动时与背景保持高度稳定和流畅;
第三,Sora的视频对光影反射、运动方式、镜头移动等细节处理得更好。
总之,就是Sora生成的视频极大地提升了视频的“真实感”,让人看了感觉像是真实拍摄的。
继“有图有真相”破碎后,视频也不再等于真相了。
目前,OpenAI尚未向公众开放Sora,仅对部分研究人员和学者开放测试资格。
国内用户无渠道参与试用Sora。
但这也不妨碍科技圈大牛们对Sora的研究兴趣。
OpenAI 官网上公开的信息,48个Sora文生视频案例、Sora的技术报告《Video generation models as world simulators》(中文译《把视频生成模型作为世界模拟器》)成为各方人士研究Sora的主要抓手和窗口。
多少有些隔岸旁观、盲人摸象的感觉,短短几天,对Sora的关注和讨论就形成了多个“派别”。
技术派:挖掘Sora背后的技术逻辑
国外社交媒体上的AI大牛,国内微博技术大V、知乎技术博主们纷纷发文分析Sora的核心技术。
这些分析主要根据OpenAI给的技术报告《Video generation models as world simulators》及报告中罗列的32篇技术文献提及的技术而来。
技术大牛们挖掘出的Sora模型创新主要有2个关键:
一, Spacetime Patch(时空Patch)技术
技术报告原文:LLMs have text tokens, Sora has visual patches.
解放思想,从大型语言模型中获得灵感。
如同LLM将各种类型的文本内容转化为Tokens后,实现对大规模文本内容的训练;
用Spacetime Patch对所有类型的视频内容进行统一表示,进而能够对视频生成模型进行大规模数据训练。
图片来源于《Video generation models as world simulators》
值得注意的是,Spacetime Patch除了包括视频信息元素的空间信息还有时间信息。
图片就是单帧的视频,把图片按正确的发生时间顺序显示出来,就将是一个逻辑正确的视频。
二, Diffusion Transformer(DiT,扩散型 Transformer)架构。
技术报告原文:Sora is a diffusion transformer。
和其他文生视频产品所用的底层架构不同,Sora 使用的是Diffusion Transformer架构。
Diffusion Transformer论文(26号论文)的作者之一William Peebles,现在是OpenAI工程师,负责开发Sora。
《Video generation models as world simulators》罗列的技术文献
Sora能获取现有的静态图像并从中生成视频,还能获取现有视频,进行扩展或填充缺失内容。
技术大牛们认为,Transformer强在前后文的理解和保持连续性,这让Sora在时间轴上的延伸性非常出色,可以生成开头不同但结尾完全一致的视频片段。
哲思派:人工智能的能力到了什么阶段?
以周鸿祎为代表的国内技术大佬们对AI能力进化的思考又进一步。
Sora生成的视频发布后,周鸿祎就称“Sora意味着AGI实现将从10年缩短到两三年”。
此后,短短3天时间,周鸿祎已发布7个小视频来阐述自己对Sora的思考。
周鸿祎认为,“Sora应该还是模拟了人类去观察世界、描绘世界和表现世界的方法。”
“Sora表面上是一个文生视频的工具,实际上是一个现实世界模拟器。它也不仅仅是用来模拟现实世界,它意味着通用人工智能对这个世界的理解能力又一次得到了突破。GPT对人类语言和知识的理解达到了一个突破点,而除了人类的语言和这个世界的人类之间做交互的知识之外,这个世界还有很多规律,人工智能对物理世界的规律缺乏理解的话,那么它是残缺的,不可能真正变成通用人工智能。”
“Sora做出的视频之所以让人感觉真是,不是画面有多优美,是因为让人类看起来,所有的动作是符合这个世界的运行规律的。它对这个世界的规律有了一个比较更为完整的了解。这就说明人工智能的能力又上了一个台阶。”
搞钱派:售卖课程、追涨股票、投资建厂搞芯片
现在,针对Sora热搜引发的“搞钱派”也分不同段位。
最基本的一类是,根据信息差来卖课、卖账号的。
Sora根本还没对外开放使用,现在就来这样搞钱实在太无厘头了。
然而,还真有人买单。
某电商平台26.6元的学习包,居然已经售出10多份。
第二类是追涨AI概念股搞钱的,人也不少。
春节后A股开门红,AI相关概念股全线上扬,Sora板块多模态模型概念、ChatGPT、虚拟人、AIGC、算力等相关概念均有所上涨,算是给A股的朋友们一个新年红包。
最高段位的,还是直接针对大模型“核心能力”—— 算力出奇迹进行投资的富豪们。
上图从左往右分别是Sora使用 1 倍资源、4 倍资源、16 倍资源训练时的生成效果。
图片来自《Video generation models as world simulators》
可见,算力,仍然是卡住AI发展脖子的角色。
就在Sora发布后,软银创始人孙正义正寻求筹资1000亿美元(约合人民币7000亿元),用于创立一家AI芯片企业,旨在挑战英伟达的消息传出。
OpenAI创始人 Sam Altman筹建7万亿打造AI芯片帝国的计划也被曝出向美政府寻求政策支持。
找差距、威胁派
就在Sora露面后的2天,2月18日,国家互联网信息办公室关于发布第四批深度合成服务算法备案信息,该批共有266个算法通过备案。此前三批分别有41、110、129个算法通过备案。
这意味着截至目前,国内总计已经有546款深度合成服务算法获得备案。
追问“国内何时有自己的Sora?”“国内企业距离赶上Sora还要多久?”的声音毫无意外的再次响起。
当然,Sora生成视频太逼真而引发犯罪不可控的担忧声也不少,生成的视频是否会影响到人身安全、社会稳定、企业安全等等。
迎接“Sora们”开放,法律、社会、技术等层面是否都做好了准备?
如IDC分析师所言,生成式AI产品不可预测的未来:具体哪些公司能在什么时间点推出与 Sora 类似的产品,不可预测。当前 Sora 生成的是1分钟的视频,下一步何时能生成2分钟5分钟以上的视频,不可预测。
但是,对于个人而言,生成式AI产品已经在潜移默化的改变我们的生活方式,每一个人都可以认真考虑该类产品如何能够助力我们的生活与工作。
还是那句话,每一项新技术进入人们的生活时,总是伴随着兴奋和质疑。那么就让Sora们 多飞一会儿!
Warning: Invalid argument supplied for foreach() in /home/wwwroot/www/chjia.com/goods.php on line 841
魅族宣布不再做手机,All in AI还来得及吗?
假期复工第一天,魅族就迫不及待放了大招。魅族官方微博发布公告,停止传统智能手机(魅族21Pro、魅族22、魅族23等)新项目的开发,后续将AllinAI,把精力转投到新的AI设备探索上。至于下一部AI硬件设备是什么,魅族...
腾讯混元大模型已开始内测 近期将正式对外发布9月5日消息,据报道,在2023智博会上,腾讯集团副总裁、政企业务总裁李强透露,近期MiniMax和百川智能旗下的大模型都使用了腾讯的算力,而腾讯内部正在进行自研的混元大模型研发,几个月前就已经开始内测,近期会正...
李彦宏心中的AI原生时代行动指南是什么作者|北方近期,百度创始人、董事长兼首席执行官李彦宏多次谈及对AI原生时代的思考,面向企业家和创业者,明确提出了「拥抱AI时代,需要一把手驱动」的观点,在他看来,当前行业中已经充斥着太多大模型,而真正能对...
字节终于等来了“豆包”自ChatGPT问世后,国内互联网和科技领域迎来了久违的“狂欢”。BAT级别的巨头引领潮流,京东、360、网易紧随其后,商汤科技、科大讯飞、出门问问等AI企业纷纷入场,李开复、王慧文、王小川等大佬“另立门户”,还有...
黄仁勋:「核弹工厂」即将上线,要让所有人用上生成式 AI「20年前我们推出了RTX显卡,5年前我们将图形计算与AI结合,推出了「星战」Demo。」美国当地时间8月8日早上,英伟达创始人、CEO黄仁勋在世界计算机图形会议SIGGRAPH2023上,开场回顾了英伟达在图形计算上的高光时刻...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...