特斯拉早已掌握视频生成技术;魅族官宣综合布局AI大模型;Sora概念股大涨 特斯拉的成果

佚名 2024-02-20

                                                                              前哨Ai研报 | Ai情报
-

马斯克:特斯拉早已掌握视频生成技术 更胜过OpenAI

据媒体报道,OpenAI发布的首个文生视频模型Sora最近热度十分高,用户通过一句话,就能生成长达1分钟的高清视频。
特斯拉CEO埃隆马斯克在社交媒体平台X上发帖,吹捧了自家模拟现实和视频生成技术是最好的”。
马斯克称,特斯拉在一年前就掌握了类似的视频生成技术,这些系统生成的视频并不是很有趣,因为训练数据来自特斯拉的汽车。它看起来像特斯拉的一个普通视频,事实上它是动态生成的世界。”
马斯克还指出,特斯拉视频生成超越OpenAI的地方在于,它预测了极其精准的物理场景,这对自动驾驶至关重要。”
小编认为,360董事长周鸿祎认为,Sora模型意味着 AGI实现将从10年缩短到1年。周鸿祎称,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。

将停止传统「智能手机」新项目?魅族官宣全面布局AI大模型

2月18日消息,魅族今日官宣将放弃传统的智能手机项目,并将全力投入AI For New Generations,全面布局AI大模型。该决定是基于当前全球手机市场面临诸多挑战,如换机周期延长、消费创新空间有限以及行业竞争加剧等原因。
魅族指出,传统手机行业已无法单纯依赖硬件升级和参数竞争满足广大消费者多样化、全面化的使用需求和使用体验。因此,在一个无限内卷的环境里,他们决定做一次艰难的转型,转向AI领域。
经过两年团队磨合、资源配置、产品布局以及相关技术预研后,魅族表示已经具备向AI领域全面转型的能力。
作为一家科技生态公司,魅族拥有完善的研发和供应链硬件团队,同时还拥有体系化开发、设计、交互的软件团队,为魅族全面投身AI提供了坚实的技术支持和服务保障。
根据规划,魅族将在2024年推出全新的手机端操作系统,并构建起AI时代操作系统的基建能力。小编认为,他们计划今年内发布首款AI设备硬件产品,并与全球顶尖的AI设备厂商展开正面竞争。

Sora概念股大涨!AI多模态应用助力内容消费市场增长

春节假期期间,Open AI发布了一款名为Sora的视频生成类模型,引起了市场的广泛讨论。
Sora是一种由OpenAI发布的视频生成模型。这种模型具有强大的视频生成能力,可以将简短的文本描述转化成长达1分钟的高清视频。
Sora模型具有三大突出亮点:能够生成60秒长视频并保持高度流畅性与稳定性;实现单个视频内的多角度镜头切换;以及具备理解真实世界的能力,处理光影反射、运动方式、镜头移动等细节,提升视频的真实感。
在收盘时,与Sora相关的概念股受到了资本的热烈追捧。宣亚国际、中文在线、当虹科技等多只股票实现了20cm的涨停。在港股市场上,创新奇智和商汤-W也分别实现了超过11%和3%的涨幅。
除了Sora之外,AI应用方向也全线上扬。

Meta发布全新AI自动剪辑视频工具Agents LAVE

论文地址:

10294.pdf
Agents LAVE是Meta发布的全新AI自动剪辑视频工具,采用AI技术实现简单短视频和广告视频的自动生成,无需人工干预。工具界面包括输入提示、素材库和视频时间轴,而Agents设计则指导编辑行动计划的执行。
Agents支持五种LLM功能,包括素材概览、创意头脑风暴、视频检索、故事板和剪辑修剪,实现自动生成的语言构建视频编辑。系统提示包括角色分配、动作描述和格式指导,以及最近的对话历史和用户输入,帮助生成行动计划。
制定行动计划后,提交给用户进行批准,每个行动由用户依次批准,以实现编辑目标。LAVE应用构建为全栈Web应用程序,前端UI采用React.js,后端服务器采用Flask,使用OpenAI的GPT-4模型和gpt-4-0613检查点实现功能映射。
Agents LAVE的发布将为视频编辑带来革命性变化,实现更高效、智能的视频剪辑流程。

美国商标局确认:OpenAI 无法申请 “GPT” 商标

OpenAI 是一家开发 AI 工具和聊天机器人的公司,但其 ChatGPT 制作者可能无法拥有该技术的商标。
美国专利商标局(PTO)拒绝让由 Sam Altman 领导的 OpenAI 公司注册 GPT(生成式预训练转换器)作为商标的申请。
该公司在与美国 PTO 的申请中辩称,GPT 不是一个 “描述性词”,因为消费者不会立即理解 “生成式预训练转换器” 这个底层词汇的含义。
然而,美国 PTO 在其决定中写道:“商标审查律师并不信服。互联网证据表明,在软件行业中,缩写‘GPT’在与类似 AI 技术相关联的软件中的使用是广泛而普遍的,这些软件具有基于预先训练数据集的问答功能。”
消费者可能不知道缩写词的底层含义,并不改变相关购买者已适应认识到 “GPT” 这一术语通常用于软件中以识别具有这种 AI 问答技术的特定类型软件的事实。
随着生成式 AI 的使用在去年激增,一些 AI 公司将 GPT 添加到其产品名称中。然而,在 OpenAI 推出以人类方式回答用户提示的 AI 模型 ChatGPT 之后,GPT 变得流行起来。
该公司开始将其定制聊天机器人称为 GPT,并刚刚发布了其文本到视频生成模型 Sora。报道还称,由于 OpenAI 在过去12个月在 AI 领域的征服,该公司已达成一项估值高达800亿美元的交易。
前哨Ai研报 | Ai锦囊
-
大学教授&学术阅读(读论文)-大学教授版本
结构提示词:
# Role: 大学教授
# Profile:
- version: 0.1
- language: 中文
- description: 我是一位大学教授,对于论文阅读有着丰富的经验。我有一个论文阅读的方法论,名为「三轮吃透法」。
## Goals:
- 深入理解论文的主旨、关键思路和待解决问题。
## Constrains:
- 遵循「三轮吃透法」进行论文阅读。
- 输出每轮阅读的我们来归纳一下文字。
## Skills:
- 熟练阅读和理解学术论文的结构和内容。
- 我们来归纳一下和梳理论文主旨、关键思路和待解决问题的能力。
- 细致入微地分析论文细节的能力。
## Workflows:
1. 第一轮阅读:
- 阅读标题、摘要、引言和小编认为,我们来归纳一下论文的主旨、类别、要解决的问题和亮点(约 200 字)。
- 阅读章节和子章节标题,了解论文的框架,但不涉及其中的细节。
2. 第二轮阅读:
- 阅读整篇论文的细节,理解论文的关键思路。
- 我们来归纳一下论文的关键思路,输出约 300 字的我们来归纳一下。
3. 第三轮阅读:
- 着重关注论文尚未解决或存在争议的问题。
- 提出进一步深入研究的问题或建议。
## Initialization:
作为一位大学教授,拥有阅读学术论文的经验和技巧,并且严格遵循「三轮吃透法」进行论文阅读。我使用中文与用户对话,友好地欢迎用户。在此我将介绍自己并告诉用户我的工作流程「三轮吃透法」。
前哨Ai研报 | Ai宝箱
-

Meta发布世界模型早期版本 V-JEPA

com/facebookresearch/jepa
上方演示图的意思是:翻看笔记本的视频被遮挡了一部分,V-JEPA能够对笔记本上的内容做出不同的预测
在 Sora 模型发布的当天,Meta 推出了一款无监督「视频预测模型」V-JEPA。这是一种非生成模型,通过抽象性预测生成视频中缺失或模糊的部分来进行学习。
该模型使用自监督学习进行了特征预测目标的训练,能够在信息有限的情况下理解和预测视频中发生的事情。
与填充缺失像素的生成方法不同,这种灵活的方法可以使训练和样本效率提高6倍
前哨Ai研报 | Ai观点
-

开发者复盘:首个登上央视春晚的 AI 视频制作过程踩坑&技术分享

今天分享一篇登上央视春晚的 AI 视频制作过程踩坑&技术分享。
央视春晚任素汐演唱的《枕着光的她》的现场伴奏视频中,首次使用了AI生成的视频。作者在文章中详细讲解了背后制作过程&用到开源技术的全面复盘,以及现阶段制作AI生成视频会遇到的问题。 
在这个 AI 视频项目中,我们使用到了开源社区中最新的技术:ControlNet, AnimateDiff, LCM, IPAdapter.
我们相信我们的实践经历对 AI 视频技术开源社区有正向的参考价值,所以决定将项目经验复盘分享给大家。
项目本身的需求是 将一段真人双人舞用 AI 的风格转绘成陶瓷的舞蹈 ,基于此需求,我们在项目开始时,对工作流进行了如下设计:
  • 搭载在 ComfyUI 上,工作流高度自定义、省显存。
  • 使用 ControlNet Lineart + OpenPose 模型,参考拍摄视频的线条及骨骼,生成新的 AI 动画。
  • 使用 AnimateDiff 达到稳定不抖动的 AI 动画效果。
  • 使用 LCM 提高生成速度。
由于跑高清的长视频对算力有较高的要求,英伟达的何展老师借给了我们一块 48GB 显存的显卡,加上我们自己的 4090,在整个项目中起到了非常关键的作用。
但即使如此,我们依然遇到了不少挑战。

挑战一

双人舞中角色稳定性问题

双人舞之所以会难做,是因为 AI 会将两个角色之间的特征进行混淆,所以经常会出现性别交换等问题。
为了解决这个问题,我们尝试将单人先 roto 出来进行转绘,再进行双人合成。
但这个工作模式的问题很大,一是大量抠像需要工期太长;二是视频速度一旦上来,动态模糊后会带来大量抠像困难;三是合成后尤其肢体衔接处会不自然。
我们最后还是回归双人直接转绘的方案,但是接入了 ControlNet tile 模型,让其参考原视频的角色细节特征,从而固定住角色特征。

挑战二

瓷器材质的实现

在项目刚开始时,我们进行了大量的材质探索。在 SDXL 和 Civitai 开源模型和 lora 的加持下,这并不算什么难题。
项目组很快就敲定了白瓷风格,于是我们继续在 SDXL 中推进静帧测试,并迅速达到了大家都很满意的效果。
但当我们把静帧参数套用到视频工作流时,发现生成的视频质量是这样的:
我们发现,SDXL 结合上 AnimateDiff 后,画面会因为过于追求稳定而折损大量细节,且在当时(去年12月份)几乎无解。
我们只能寄希望于生态更加完整的 SD1.5 ,但这也意味着我们失去了 SDXL 强大的生成能力……同样的 Prompt 在 SD1.5 里的效果是这样的:
本来以为得训练 SD1.5 的瓷器 LoRA,但峰回路转地,我们发现这其实是一个 “关键词” 就可以解决的问题。

然后我们开始在 SD1.5 上逐渐复刻出我们想要的瓷器材质。
除了关键词以外,我们还发现了一个 prompting “神器”:IPAdapter,用一张参考图来引导 AI 生成指定材质效果。 
有了新的工作流,我们顺利生成了第一版“瓷娃娃”质感的视频:
以及青花瓷和翡翠质感的版本:
每一组动态测试,在 4090 显卡下的渲染时间一般在 10 分钟以内。

挑战三

换装稳定性测试

节目的设计是双人舞三个阶段变装,包括结婚、婚后、老年三个阶段。利用 AI 来实现丝滑的变装是重要的需求。
我们首先在 pr 里对齐了剪辑,在生成时通过 prompt travel 的方式(不同关键帧描述不同的内容)进行了实现。
需要提到的经验是,我们发现 prompt travel 只对比较短的视频有用,当生成帧数大于 800 帧以后,AI 就会开始不遵循关键词。所以分段小批量的进行转绘是让画面更加稳定符合预期的重点。
在攻克所有难题后,我们最终完成了这个作品,1200+ 帧左右在 Nvidia 4090 下一共渲染了 4-5 小时。

结语

我们在整个项目的过程中成长了许多,熟悉了很多开源社区最新的技术,也探索了这些技术在具体项目中的可能性。同时也结识了很多开源社区的好朋友,特别感谢 Jerry Davos 毫无保留的工作流分享和技术指导!
当然,最终能达成满意效果的原因,不仅有赖于开源社区无私的共享,也源于王圣哲、高贾雪两位舞者本身卓越的舞蹈技术和表现力;春晚编导及节目组的精心设计:春晚副总导演大治老师、节目视效导演申子、美娇老师、春晚 AR 团队封毅老师、舞蹈指导谢长慧老师、数字栩生宋震老师;以及任素汐老师对《枕着她的光》这首曲目的出色演绎。
《枕着她的光》是我们对于 AI 可能性的一个答卷,也是人与 AI 合作的一种可能,我们期待着与更多优秀的艺术家一起在 2024 年探索这种可能.

本文转载自网络,版权归原作者所有,如侵犯您的权益请联系3810298020#qq.com,我们将第一时间删除。

上一篇:为啥子要买车位的十大理由 为啥子要买车位呢
下一篇: