搜索
当前所在位置:首页 >> 风事播

影片生成赛道再添“猛将”,智谱清影正式上线

发布时间:2025-07-12 04:35:59 作者:i 点击:63 【 字体:


年初 Sora 横空出世,猛将验证了 Scalling Law 在影片生成方面的影片有效性。但 Sora 始终止步于公开的生成赛道上线 60 秒 demo,产物落地计划迟迟未有公开。再添智谱正式

 

随后的清影半年时间,不少“玩家”继续在AI影片生成赛道展开角逐,猛将成都大学偷拍下载并逐步实现落地。影片今年6月,生成赛道上线快手打“前锋”,再添智谱正式发布即可用的清影“可灵”成为国内影片生成赛道的“黑马”。

 

紧随其后,猛将国外知名 3D 建模平台 Luma AI 也高调入局,影片发布文生影片模型 ,生成赛道上线并宣布对所有客户免费开放使用,再添智谱正式再掀波澜。清影

 

昨日,快手进一步宣布全面开放内测,同时推进商业化,上线了会员付费体系。

 

而就在今日,智谱也正式上线了AI影片生成功能清影(Ying),正式入局文生影片及图生影片赛道,生成6秒影片仅需30秒的时间。首发测试期间,可以免费试用。重庆高中爆料最新

 

值得关注的是,智谱是目前国内超 200 亿估值的大模型公司中、第一家发布影片生成成果的创业团队。

 

此前,智谱在外界传递的工艺优势以文本、检索为先,Tier 1 中多模态能力被寄予众望的两家是月之暗面、MiniMax,但在影片生成上,智谱却先人一步,率先亮出了耀眼的成绩。

 

快速的多模态能力成长,不仅得益于行业的工艺进步,展露了智谱在多模态运算规则、算力储备上少为人关注的“肌肉”,更归功于智谱的扎实积累:

 

实际上,智谱在 all in 大模型之初就开始布局多模态,且在2022年率先发布了基于大模型的文本到影片生成模型 CogVideo。

 

智谱清影便是基于这一模型的升级版——CogVideoX 实现的。

 

“CogVideoX能将文本、时间、空间三个维度融合起来,参考了Sora的运算规则设计,它也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。我们将继续努力迭代,在后续版本中,陆续推出更高分辨率、更长时长的生成影片功能。”智谱 AI CEO 张鹏说道。

 

智谱“清影”正式上线

 

今日,智谱在Open Day 上正式发布“清影”后,当前,在智谱清言平台上,该功能已正式开放内测,支持PC、APP及小程序。

 

目前,清影所能生成的影片时长为 6s,渲染时长在 30s 左右。此外,所生成影片的分辨率已达1440p。

  影片生成赛道再添“猛将”,智谱清影正式上线

(链接:https://chatglm.cn/video )

 

从文生影片的具体操作来看,输入一段文字后(俗称“Prompt”),便可以自主选择想要生成的风格,包括卡通3D、黑白、油画、电影感等,再叠加清影自带的音乐,随即生成影片。

 

同步上线的还有图生影片功能,包括表情包梗图、广告制作、剧情创作、短影片创作等。同时,基于清影的“老照片动起来”小程序也将上线,清影在让老照片“复活”方面表现可观,且能够自动实现上色:

 影片生成赛道再添“猛将”,智谱清影正式上线

原图为未上色黑白版

 

https://sfile.chatglm.cn/testpath/video/6954cc06-7293-5144-a410-dc53c980a9b6_0.mp4

生成后影片(指令为:图中的奶奶带上头戴式耳机)

 

从生成影片的类型维度上看,清影主要在风景、动物、超现实、人文历史类需求上表现更好;在影片风格维度上,皮克斯风格、卡通风格、摄影风格、动漫风格均能够自主选择;镜头画面实现效果最好的是近景。

 

需要注意的是,在实操过程中,提示词作为关键一环,会对生成影片的效果产生一定作用。

 

例如,描述为“小男孩喝咖啡”与“摄影机平移,一个小男孩坐在公园的长椅上,手里拿着一杯热气腾腾的咖啡。他穿着一件蓝色的衬衫,看起来很愉快,背景是绿树成荫的公园,阳光透过树叶洒在男孩身上。”所达成的效果便不尽相同。

  

此外,为了使提示词更加清晰可执行,智谱还相应地提供了文生影片及图生影片的prompt智能体,辅助达成更好的影片生成效果。在图生影片界面,直接点击“帮我想一条”即可快速获得提示词。

 

从价格上来看,此次首发测试期间,所有客户均可免费使用。

 

当前,清影生成影片需要排队等待 1 分钟以上,而如需走 VIP 通道快速“提货”,则需要购买加速包。清影界面显示,解锁一天(24小时)的高速通道权益收费5元,付费199元解锁一年付费高速通道权益。 

 影片生成赛道再添“猛将”,智谱清影正式上线


值得一提的是,智谱还将成为国内首个面向开发者开放影片生成大模型的厂商。在 CogVideoX 上线开放平台后,开发者可以通过调用API的方式,体验和使用文生影片以及图生影片的模型能力。

 

依托自研提质增效

 

清影主要依托于智谱团队自研的影片生成大模型 CogVideoX。

 

而从工艺维度进行深度剖析来看,首先,智谱自研了一个高效的三维变分自编码器结构(3D VAE)来解决内容连贯性的问题,将原影片空间压缩至2%大小,以减少影片扩散生成模型的训练成本及训练难度。

 

模型结构方面,采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。

 

同时,在时间维度上因果卷积的形式也使得模型具备影片编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。

 

从工程部署的角度,基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及部署,使其具备支持在更小的显存占用下支持极高帧数影片的编解码的能力。

 

其次,针对目前的影片信息大多缺乏对应的描述性文本或者描述质量低下的情况,智谱自研了一个端到端的影片理解模型,用于为海量的影片信息生成详细的、贴合内容的描述,增强模型的文本理解和指令遵循能力,使生成的影片更符合客户的输入,能够理解超长复杂prompt指令。

 

最后,智谱还自研了一个将文本、时间、空间三个维度全部融合起来的 transformer 架构,摒弃了传统的 cross attention 模块,在输入阶段就将文本 embedding 和影片 embedding concat 起来,以便更充分地进行两种模态的交互。

 

由于两种模态的特征空间存在很大差异,智谱进一步通过 expert adaptive layernorm 对文本和影片两个模态分别进行处理来弥补,更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

 

其中,注意力模块采用了 3D 全注意力机制,先前的研究通常使用分离的空间和时间注意力,或者分块时空注意力,需要大量隐式传递视觉信息,大大增加了建模难度,同时,也无法与现有的高效训练框架适配。位置编码模块设计了 3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起影片中的长程依赖。

 

多模态领域厚积薄发

 

多模态大模型工艺底座的支撑,让智谱发布“清影”,成为积淀已久的使然。2021年,智谱正式发布文生图大模型 CogView,次年迭代至 CogView2,并在今年发布 CogView3。

 

而实际上,早在2022年,基于CogView,智谱团队便已正式推出了文生影片大模型 CogVideo。

 

据介绍,CogVideo 采用多帧率分层训练策略生成高质量的影片片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的影片片段,并将这些影片片段逐层插值得到最终的影片片段。

 

过去一年多,智谱在多模态大模型增长上一路狂飙。2023 年3月,智谱推出了千亿开源基座对话模型 ChatGLM ,5月,又发布了图文对话大模型VisualGLM,随后,迅速在6 月、10 月推出迭代版的 ChatGLM2 与 ChatGLM3,并在今年 1 月迭代至 GLM-4 。

 

去年年末,智谱还推出了多模态对话模型 CogVLM,今年逐步迭代至 CogVLM2。

 

智谱 GLM 大模型团队认为,“文本是构建大模型的关键基础,下一步则应该把文本、图像、影片、音频等多种模态混合在一起训练,构建真正原生的多模态模型。”未来大模型的工艺突破方向之一就是原生多模态大模型。

 

当前,“多模态模型的探索还处于非常初级的阶段”。从生成影片的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。而从模型本身角度看,需要更具突破式创新的新模型架构,能够更高效压缩影片信息,更充分融合文本和影片内容,贴合客户指令的同时,让生成内容真实感更高。

 

而在生成式影片模型的研发中,Scaling Law 将继续在运算规则和信息两方面发挥作用。“我们积极在模型层面探索更高效的scaling方式。”张鹏表示,“随着运算规则、信息不断迭代,相信Scaling Law将继续发挥强有力作用。”雷峰网雷峰网(公众号:雷峰网)


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

影片生成赛道再添“猛将”,智谱清影正式上线

阅读全文
相关推荐

上海AI实验室开源发布高质量语料“万卷CC”

上海AI实验室开源发布高质量语料“万卷CC”
近日,上海人工智能实验室上海AI实验室)发布新一代高质量大模型预训练语料“万卷CC”WanJuan-CC),首批开源的语料覆盖过去十年互联网上的公开内容,包含1千亿字符100Btoken),约400G ...

618解锁歌手同款音响——意大利多曼尼以声学重构专属你的空间叙事

618解锁歌手同款音响——意大利多曼尼以声学重构专属你的空间叙事
来源标题: 618解锁歌手同款音响——意大利多曼尼以声学重构专属你的空间叙事一直以来,意大利多曼尼都是家居设计师圈里疯狂推荐的居家艺术品。从设计风格上看,多曼尼延续了意大利人热衷于将科技与艺术融合的D ...

大阪世博会中国馆举行中国电影日活动

大阪世博会中国馆举行中国电影日活动
来源标题:大阪世博会中国馆举行中国电影日活动新华社东京5月25日电记者胡晓格)中国电影日活动25日在大阪世博会中国馆举行,这是中国电影活动首次在世博会平台举办。中日电影界代表以及世博会各场馆代表等百余 ...

特斯拉首款无人驾驶 RobotTaxi,升级版 Optimus 还是画大饼?

特斯拉首款无人驾驶 RobotTaxi,升级版 Optimus 还是画大饼?
北京时间 10 月 11 日上午,特斯拉在洛杉矶华纳兄弟工作室召开“We, Robot”演示活动,给我们带来了两款全新的自动驾驶汽车和更多关于人形机器人的畅想。早在两个星期前,马斯克就早早高调预告,“ ...

相声演员杨少华去世,曾登上春晚

相声演员杨少华去世,曾登上春晚
9日下午,记者从相声演员苗阜、天津知名相声主持人小佀老师处获悉,相声演员杨少华去世,享年94岁。苗阜在个人微博悼念杨少华:一辈子了!走好杨少华,1931年出生于北京,中国内地相声男演员。杨少华早年家庭 ...

观众对好电影的需求始终强烈——2025文化强国建设高峰论坛“电影业高质量发展”论坛侧记

观众对好电影的需求始终强烈——2025文化强国建设高峰论坛“电影业高质量发展”论坛侧记
来源标题:观众对好电影的需求始终强烈——2025文化强国建设高峰论坛“电影业高质量发展”论坛侧记5月27日,由中宣部主办的2025文化强国建设高峰论坛电影业高质量发展论坛在深圳举办。论坛聚焦&ldqu ...

2025岳云鹏《非要唱》巡回演唱会北京站:用音乐讲最朴素的真心话

2025岳云鹏《非要唱》巡回演唱会北京站:用音乐讲最朴素的真心话
来源标题:2025岳云鹏《非要唱》巡回演唱会北京站:用音乐讲最朴素的真心话岳云鹏,这位在春晚舞台逗乐亿万观众的国民相声演员,2025年要做一件“不务正业”的大事—& ...

世界夫人蔡保梅戛纳演绎东方优雅

世界夫人蔡保梅戛纳演绎东方优雅
来源标题:世界夫人蔡保梅戛纳演绎东方优雅【戛纳讯】当地时间2025年5月19日,第78届戛纳国际电影节的红毯上,一位身着旗袍的东方女性吸引了全球目光——她是中国女企业家、世界夫 ...

外交部:美对铜加征关税不符合任何一方利益

外交部:美对铜加征关税不符合任何一方利益
财联社7月10日电,据央视新闻,当地时间7月9日,特朗普宣布对铜征50%关税。今天,中国外交部发言人毛宁对此表示:这个问题我们立场非常明确,我们一贯反对泛化国家安全概念,我们也始终认为关税战、贸易战没 ...

硅谷巨头要学会接受:「DeepSeek 现象」只是开始

硅谷巨头要学会接受:「DeepSeek 现象」只是开始
2025 年的春节无疑已被 DeepSeek 霸屏。过去三年每年的春节都有一次重磅的 AI 讨论:2023 年是 ChatGPT、2024 年是 Sora,这两股风潮都是由 OpenAI 掀起,而 2 ...

MIT 热门研究:AI 工具“带飞”科研,但也严重加速内卷

MIT 热门研究:AI 工具“带飞”科研,但也严重加速内卷
最近,MIT的一名博士生Aidan Toner-Rodgers历经四年,在AI + 科研领域挖掘出一个惊人的结论——AI的参与让科学发现和创新迈上了新台阶,却也意外拉大了科研人员之间的“能力鸿沟”。在 ...

金鹰卡通卫视《三孩来了 3》唐九洲带娃初体验 20后萌娃高情商交友

金鹰卡通卫视《三孩来了 3》唐九洲带娃初体验 20后萌娃高情商交友
来源标题:金鹰卡通卫视《三孩来了 3》唐九洲带娃初体验 20后萌娃高情商交友在人生的旅途中,总有许多令人难忘的“第一次”——第一次鼓起勇气表达自己、第一 ...
返回顶部