type
status
date
slug
summary
tags
category
icon
password
Sora来了
OpenAI趁着咱们春节期间偷偷发布了首款文生视频模型Sora。
效果确实不错,好莱坞时代就此结束了?
能力优势
物理引擎
OpenAI正在教授AI理解和模拟运动中的物理世界,目标是训练能够帮助人们解决需要真实世界互动的问题的模型。
Sora可以生成长达一分钟的视频,同时保持视觉质量并遵循用户的提示。
下面这个视频酷似mac的big-sur壁纸,其中的海浪阳光非常逼真,就像现实世界一样
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
提示:无人机拍摄的海浪拍击大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边长满了绿色的灌木丛。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖边缘伸出海面。这一景观捕捉到了海岸的原始之美和太平洋海岸公路的崎岖景观。
无版权风险
Sora已经开始向红队成员提供,以评估对危害或风险的关键领域。OpenAI还授予了一些视觉艺术家、设计师和电影制作人的访问权限,以获取关于如何推进该模型以对创意专业人士最有帮助的反馈。
OpenAI提前分享研究进展,与OpenAI以外的人合作并获取反馈,让公众对即将到来的AI能力有所了解。
下面这个视频中的淘金热展现的不错。
Prompt: Historical footage of California during the gold rush.
提示:淘金热期间加利福尼亚州的历史镜头。
多角色生成
OpenAI的文生视频模型Sora能够生成具有多个角色、特定类型运动和主题背景的复杂场景,并准确呈现细节。该模型不仅理解用户在提示中的要求,还了解这些事物在物理世界中的存在方式。
下面这个视频中有非常多的人物。也能展现的不错。
Prompt: A drone camera circles around a beautiful historic church built on a rocky outcropping along the Amalfi Coast, the view showcases historic and magnificent architectural details and tiered pathways and patios, waves are seen crashing against the rocks below as the view overlooks the horizon of the coastal waters and hilly landscapes of the Amalfi Coast Italy, several distant people are seen walking and enjoying vistas on patios of the dramatic ocean views, the warm glow of the afternoon sun creates a magical and romantic feeling to the scene, the view is stunning captured with beautiful photography.
提示:无人机摄像机围绕着一座美丽的历史教堂盘旋,这座教堂建在阿马尔菲海岸的岩石露头上,视图展示了历史悠久、宏伟的建筑细节以及分层的路径和露台,当视图俯瞰地平线时,可以看到海浪撞击下面的岩石。意大利阿马尔菲海岸的沿海水域和丘陵景观,远处的几个人在露台上散步和欣赏壮丽的海景,午后阳光的温暖光芒给场景营造出一种神奇而浪漫的感觉,景色令人惊叹用美丽的摄影捕捉。
语言理解深入
该模型对语言有深入的理解,使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。 Sora 还可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。
下面这个视频使用一致的形象,还进行分镜处理。
Prompt: The story of a robot’s life in a cyberpunk setting.
提示:赛博朋克背景下机器人的生活故事。
下面这个视频对非常长的文本理解非常准确,得益于OpenAI对LLM的技术积累
Prompt: An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film.
提示:一个 60 多岁、头发花白、留着胡须的男人的极端特写,他坐在巴黎的一家咖啡馆里,沉思着思考宇宙的历史,他的目光聚焦在银幕外行走的人们身上。他几乎一动不动地坐着,穿着一件羊毛大衣西装外套,搭配一件纽扣衬衫,戴着棕色贝雷帽,戴着眼镜,一副非常教授的样子,最后他露出了一个微妙的闭嘴微笑,好像他发现了生命之谜的答案,灯光非常电影化,金色的光芒和巴黎街道和城市的背景,景深,电影级 35 毫米胶片。
能力缺陷
当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。
该模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
动物或人可能会突然出现,出现重叠和混乱。
Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.
提示:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。
下面这个视频明明吹了蜡烛但是,并没有熄灭。
Prompt: A grandmother with neatly combed grey hair stands behind a colorful birthday cake with numerous candles at a wood dining room table, expression is one of pure joy and happiness, with a happy glow in her eye. She leans forward and blows out the candles with a gentle puff, the cake has pink frosting and sprinkles and the candles cease to flicker, the grandmother wears a light blue blouse adorned with floral patterns, several happy friends and family sitting at the table can be seen celebrating, out of focus. The scene is beautifully captured, cinematic, showing a 3/4 view of the grandmother and the dining room. Warm color tones and soft lighting enhance the mood..
提示:一位白发梳得整整齐齐的老奶奶站在木质餐桌上的彩色生日蛋糕后面,蛋糕上插着无数蜡烛,脸上的表情是纯粹的喜悦和幸福,眼中闪烁着幸福的光芒。她倾身向前,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜和糖珠,蜡烛不再闪烁,祖母穿着一件饰有花卉图案的浅蓝色衬衫,几个快乐的朋友和家人坐在桌边。看到庆祝,失去焦点。该场景拍摄精美,具有电影般的效果,展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。
安全
OpenAI将在推出Sora模型之前采取多项重要的安全措施。OpenAI正在与红队成员合作,红队成员是在误导信息、仇恨内容和偏见等领域的专家,他们将对该模型进行对抗性测试。
OpenAI还正在开发工具来帮助检测误导性内容,例如可以判断视频是否由Sora生成的检测分类器。如果OpenAI将该模型部署在OpenAI产品中,OpenAI计划在未来包含C2PA元数据。
除了开发新技术准备部署之外,OpenAI还利用了OpenAI为使用DALL·E 3的产品构建的现有安全方法,这些方法同样适用于Sora。
例如,在进入OpenAI产品后,OpenAI的文本分类器将检查并拒绝违反OpenAI使用政策的文本输入提示,例如请求极端暴力、性内容、仇恨图像、名人肖像或他人知识产权的文本。OpenAI还开发了强大的图像分类器,用于审查生成的每个视频帧,以确保其符合OpenAI的使用政策,然后再向用户展示。
OpenAI将与全球的政策制定者、教育工作者和艺术家进行交流,了解他们的关切,并确定这项新技术的积极用例。尽管经过了广泛的研究和测试,OpenAI无法预测人们将如何以各种有益的方式使用OpenAI的技术,也无法预测人们将如何滥用它。这就是为什么OpenAI相信,从实际使用中学习是创建和发布日益安全的AI系统的关键组成部分。
研究
Sora是一种扩散模型,通过从看起来像静态噪音的视频开始,并在多个步骤中逐渐消除噪音来生成视频。
Sora能够一次性生成完整的视频,或者扩展生成的视频以使其更长。通过让模型一次性具备多个帧的先见性,OpenAI解决了一个具有挑战性的问题,即即使主题暂时离开视野,也能确保主题保持一致。
与GPT模型类似,Sora使用了Transformer架构,从而实现了出色的扩展性能。
OpenAI将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于GPT中的一个标记。通过统一OpenAI表示数据的方式,OpenAI可以训练扩散Transformer模型,涵盖比以前更广泛的视觉数据范围,跨越不同的持续时间、分辨率和宽高比。
Sora基于DALL·E和GPT模型的先前研究。它使用了DALL·E 3中的重新描述技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更准确地遵循用户在生成的视频中的文本提示。
除了能够仅通过文本指令生成视频外,该模型还能够接收现有的静态图像,并从中生成视频,准确地将图像的内容进行动画化,并关注细节。该模型还可以接收现有视频并扩展它或填充缺失的帧。在OpenAI的技术报告中了解更多。
Sora为能够理解和模拟现实世界的模型奠定了基础,OpenAI认为这是实现通用人工智能的重要里程碑。
联系我
添加微信回复「加群」,拉你入交流群
- 作者:鹤涵
- 链接:https://www.hehanwang.com/article/openai-0216
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。