搜索
当前所在位置:首页 >> 风报榜

若愚科技:基于多模态大模型的机器人“大脑”领导者

发布时间:2025-07-11 13:30:07 作者:t 点击:42143 【 字体:

当前,大脑“四肢发达、若愚头脑简单”的科技传统机器人已经无法满足千行百业“机器代人”的需求,迫切期待机器人从单一场景自动化向复杂场景智能化的基于拐点出现。传统机器人实现高阶智能的多模的机关键是更加智能的机器人“大脑”。近日,模型工业和信息化部印发了《人形机器人创新增长指导意见》(以下简称《指导意见》),器人机器人产业链上下游企业迎来重大利好,领导特别是大脑针对机器人“大脑”提出更高要求。

在此背景下,若愚由哈尔滨工业大学(深圳)(以下简称“哈工深”)创立的科技多模态大模型研发企业——深圳若愚科技有限公司(以下简称“若愚科技”),以其卓越的基于工艺实力和前瞻性的市场洞察力,引起了业界的多模的机广泛关注。若愚科技与哈工深共建机器智能联合实验室,模型形成由顶尖专家领衔的器人多层次、多学科研究团队,在多模态大模型、自然语言处理、具身智能和大模型量化与压缩等各个领域均有着深入的研究和理解。同时,团队依托深圳哈深资产经营运营公司孵化,享受学校政策支持和资源保障,机器人学科一直是哈工大的优势学科,学校持股团队为团队增长提供了稳定的资金来源和丰富的机器人上下游资源。团队的可靠背景也为合作伙伴提供了信心和保障。

面对机遇与挑战,若愚科技认为,将机器人“大脑”作为落地载体,是以新一代多模态大模型工艺为底座的AI公司的“最佳选择”。多模态大模型工艺将推动机器人“大脑”快速升级,其进化速度远超机器人本体,或将在未来2至3年内越过工艺成熟点,进入规模化产业落地阶段。

将机器人“大脑”作为落地载体成“最佳选择”

目前,机器智能工艺的增长正面临着大量跨模态任务的挑战,“基于多模态的预训练大模型将成为机器智能基础设施”,这一观点成为业内共识。市面上的大模型把提升多模态和多任务方面能力作为主要发力方向,而这也是机器人“大脑”在实际应用中“得分高低”的关键衡量指标,将机器人“大脑”(尤其是人形机器人“大脑”)作为落地载体,往往成为以新一代大模型工艺为底座的AI公司的“最佳选择”。

机器人“大脑”可以利用多模态大模型工艺,实现视觉、听觉、触觉、语言等多种信息的融合和处理,从而提高机器人的智能水平和交互能力。这与《指导意见》提出的“开发基于机器智能大模型的人形机器人‘大脑’,增强环境感知、行为控制、人机交互能力,推动云端和边缘端智能协同部署”的目标是一致的。

但从现实增长状况来看,现有的机器人公司往往依赖于外部的大型模型工具,如GPT-3、GPT-4等,然而这些外部模型并未针对机器人的特定信息进行训练,因此机器人的指令分解能力和执行成功率相对较低。外部大模型工具自身能力有限,使得机器人也受到相应的限制,无法实现真正的自主可控。所以表现优秀的大模型工具成为行业的焦点。

针对当前机器人行业深度增长所面临的诸多问题,若愚科技与哈工深共同研发具有完全自主知识产权的语言大模型和多模态大模型,掌握从0到1自主训练语言大模型与多模态大模型的工艺,并得到工信部认证。其中,“若愚-九天”首次参评即连续数月登顶OpenCompass多模态大模型榜单,展现出若愚科技的强大研发实力。

以“若愚-九天”大模型为基底的机器人“大脑”在多个领域中展现出色的“智能”能力。“123亿参数”“1亿2千万图文对”“1.5万亿tokens”……一串串数字背后,是“若愚-九天”多模态大模型在各个维度的突破和优化。无论是逻辑推理、关系推理,还是感知能力方面,“若愚-九天”都能够准确地理解响应客户需求,甚至超越客户期待。

“早在成立之初,若愚科技便瞄准了机器人‘大脑’的方向,致力于为整个机器人生态赋能。”若愚科技CEO孙腾指出,《指导意见》提出的“开发基于机器智能大模型的人形机器人‘大脑’”和“围绕动态开放环境下人形机器人感知与控制”两个方面,与若愚科技深耕领域相匹配。

值得关注的是,相对于落地C端的激烈竞争,以及对超大规模信息、超强算力、超大规模客户触达的刚需,机器人“大脑”正处于起步阶段,未来上限更高、行业跨度更大、专业要求更高,竞争格局将会相对分散,这也从另一角度印证了选择机器人“大脑”为落地载体的合理性。

多模态大模型工艺将推动机器人“大脑”快速升级

正如人类的“五感”互相连通、紧密协作,共同构成了人们对世界的认知体验,机器智能也朝着类似的方向增长,文字、语言、图像等不同信息类型(模态)的边界逐渐变得模糊。伴随着AI感知、交互和生成能力的快速增长,多模态大模型工艺将推动机器人“大脑”快速升级。多模态大模型工艺推动机器人“大脑”快速迭代升级的根本原因在于,模拟人类大脑处理信息方式是多模态模型工艺的核心目标。通过融合不同感知模态,使机器人可以像人类一样来理解世界,以更为综合的方式来感知和生成信息,满足不同场景条件的实际需求。具体来讲,多模态大模型工艺可以利用海量多媒体信息,实现对不同模态信息的深度理解和生成,提高机器人的认知能力和创造能力;可以利用强化学习和元学习等方法,实现对不同场景和任务的快速适应和优化,提高机器人的决策能力和执行能力;可以利用对话系统和情感分析等工艺,实现对人类的语言和情感的理解和响应,提高机器人的沟通能力和共情能力。

从当前多模态大模型在现实场景中的表现可以证明,其运用在机器人“大脑”将大幅提高机器人环境感知、肢体运动、人机交互、任务规划等核心能力。例如,今年3 月份谷歌联合柏林工业大学团队推出的PaLM-E,是一种多模态具身视觉语言模型,不仅可以理解图像,还能理解、生成语言,可执行各种复杂的机器人指令而无需重新训练。PaLM-E还表现出了“正迁移”能力,即它可以将从一项任务中学到的知识和技能迁移到另一项任务中,从而与单任务机器人模型相比具有“显著更高的性能”。

对于若愚科技而言,多模态大模型“若愚-九天”能够处理文本、图像、音频和影片等不同类型信息的同时,还能打破各模态间的信息壁垒,将不同类型信息在“九天”中进行有效的整合交互,从而实现更深层次的信息理解,做到更加自然顺畅的人机对话。此外,若愚科技还实现了从人类知识到机器人世界的跨越。若愚科技联合哈工深把含有大量人类通用知识的语言基座大模型和多模态基座大模型对齐到以机器人为中心的世界,构建了多模态具身决策大模型,可充分利用基座模型中的人类知识,迅速泛化到不同机器人场景,实现了从人类知识到机器人世界的跨越。通过联合规划大模型与决策大模型,若愚科技成功突破了机器人的智能可控,为机器智能领域带来了新的突破口。

机器人“大脑”进化速度将远超机器人本体

机器人“大脑”的进化速度主要取决于大模型工艺的增长速度,而大模型工艺的增长速度又由计算能力和信息量的增长速度决定。目前这两者都呈现出加速的趋势,推动机器人“大脑”进化加速。机器人本体的进化速度主要取决于机械、电子、材料等领域的工艺创新,而这些领域的工艺突破受到物理、化学、生物等学科的限制,导致机器人本体的进化速度难以突破瓶颈。人类发育的规律和目前的AGI范式都表明“大脑”的工艺进化速度会先于本体,再延伸至后续的商业化也是相同的增长路径。若愚科技预测,机器人‘大脑’工艺成熟点将在未来2至3年内实现,从而进入到规模化产业落地阶段。届时,机器人将在制造业、民生领域等多个领域和场景中发挥关键作用。

“从产物化进程的角度看,目前人形机器人还处在早期,除部分细分领域如科研、接待展示等小规模落地外,其他场景都没有规模化落地,需要进一步探索落地场景和商业模式。”哈工深特聘校长助理,若愚科技首席科学家张民表示。目前,基于“若愚-九天”多模态大模型基座的垂直细分领域定制化模型已开始在各垂直领域陆续应用。例如,在智能捡练领域,多模态大模型具有自动识别各种颜色、形状等属性物体的能力,可提升工作效率;在工业组装领域,多模态大模型具有大量人类知识,可以自由切换产线,降低成本。这与《指导意见》提出的“聚焦3C、汽车等制造业重点领域,提升人形机器人工具操作与任务执行能力,打造人形机器人示范产线和工厂,在典型制造场景实现深度应用”的目标相符合,未来人形机器人将在制造业领域发挥关键作用。

新一代具身智能机器人必将成为机器智能领域的关键增长方向。《指导意见》的颁布为人形机器人产业增长提供了政策引导、工艺支撑、市场空间等多方面保障,有助于推动整个机器人产业实现规模化、高质量、可持续的增长。未来,若愚科技将积极响应,加强工艺创新和产物研发,拓展机器人的应用场景和市场空间,以机器人“大脑”为切入点为整个行业赋能,同时期待与更多合作伙伴共同探索机器人的增长可能性和潜在价值,为人类社会进步增长提供新动力和新选择。

雷峰网(公众号:雷峰网)

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

若愚科技:基于多模态大模型的机器人“大脑”领导者

阅读全文
相关推荐

上海AI实验室开源发布高质量语料“万卷CC”

上海AI实验室开源发布高质量语料“万卷CC”
近日,上海人工智能实验室上海AI实验室)发布新一代高质量大模型预训练语料“万卷CC”WanJuan-CC),首批开源的语料覆盖过去十年互联网上的公开内容,包含1千亿字符100Btoken),约400G ...

Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长视频,一对一QA视频内容细节

Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长视频,一对一QA视频内容细节
作者:赖文昕编辑:陈彩娴自3天前Sora发布以来,由图灵奖得主、Meta首席科学家Yann LeCun提出的“世界模型”又一次引起了广泛关注。“世界模型”作为Sora的一大核心亮点,被OpenAI写在 ...

李彦宏在百度世界2023:我们即将进入一个AI原生的时代

李彦宏在百度世界2023:我们即将进入一个AI原生的时代
“大模型带来的智能涌现,这是我们开发AI原生应用的基础。”10月17日,李彦宏在百度世界2023上表示。当天,李彦宏以《手把手教你做AI原生应用》为主题发表演讲,发布文心大模型4.0版本,并带来新搜索 ...

价格战之后,智谱来到商业化的下一站

价格战之后,智谱来到商业化的下一站
「雷峰网(公众号:雷峰网)消息」刚刚过去的 5 月里,中国 AI 大模型领域掀起一场价格战,激起行业热议。这次价格战的两股势力分别是互联网大厂和大模型创业公司,以字节、阿里云、腾讯和智谱为主要参战代表 ...

在 AI 战场里拿掉英特尔,PC 能活吗?

在 AI 战场里拿掉英特尔,PC 能活吗?
ChatGPT引发了一场大模型淘金热。一开始大家扎堆训练大模型。发现入局没有那么简单,发展到第二阶段,就开始出现了寄生于ChatGPT的众多APP和应用。无论是发力于向量数据库缓存,还是支持模型微调以 ...

通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2

通义千问登顶Hugging Face榜首,国产开源大模型赶超Llama2
【雷峰网(公众号:雷峰网)消息】上周五,全球最大的开源大模型社区Hugging Face公布了最新的开源大模型排行榜,阿里云通义千问Qwen-72B表现抢眼,以73.6的综合得分在所有预训练模型中排名 ...

港科大褚晓文:医疗场景下的 AutoML ,模型参数量更小、分类准确率更高

港科大褚晓文:医疗场景下的 AutoML ,模型参数量更小、分类准确率更高
探索 AI 和医学结合更多的可能性,是人工智能发展的一个重要命题。AutoML 作为近年来备受瞩目的概念之一,被视为解决算法工程师来提高训练模型效率的一个工具,在工业、农业、零售等诸多场景中均有被使用 ...

大模型落地,向量数据库能做什么?

大模型落地,向量数据库能做什么?
在保险行业这个海量数据的“聚居地”上,数据库应用已久。近年来,保司数据化转型提速,各类文本、音视频的凭证票证核保及跑批需求不断增加,许多机构便将数据库引入至业务流程中。但是,随着数据库深入保司业务,一 ...

DALL·E 3 推理能力炸裂提升,OpenAI 抢跑「ChatGPT 原生」

DALL·E 3 推理能力炸裂提升,OpenAI 抢跑「ChatGPT 原生」
时隔一年半,OpenAI 直接玩了个大的,把文生图和 ChatGPT 做了结合,带着最新版本 DALL·E 3 来了。DALL·E 3 的巨大飞跃主要体现在两大方面。第一,只需要提示词,ChatGPT ...

AI 迈进深水区,谈落地、谁能带来新解法?

AI 迈进深水区,谈落地、谁能带来新解法?
技术发展是一个持续叠进的过程,AI 也是如此。经历过去 70 年的“三起两落”,近年来,人工智能行业迈进深水期,分工细化,产业落地成为主旋律,AI 与各个场景的交叉、对话不断在发生。对不少企业而言,以 ...

超 50 位两院院士、200 位青年科学家!2023「青年科学家 50² 论坛」深圳举办

超 50 位两院院士、200 位青年科学家!2023「青年科学家 50² 论坛」深圳举办
9月24日,由南方科技大学、腾讯公司共同主办的第三届“青年科学家50²论坛”在深圳开幕。韩启德、窦贤康、薛其坤、潘建伟等知名科学家,超过50位两院院士,20位大学校长、副校长,50多位新基石研究员,近 ...

大模型生产力的头场变革,从英特尔商用 AI PC 说起

大模型生产力的头场变革,从英特尔商用 AI PC 说起
作者丨郭思编辑丨陈彩娴「水利万物而不争。」这是英特尔公司高级副总裁、英特尔中国区董事长王锐女士常说的一句话,看似没有压迫性,却切实点出了英特尔作为 AI PC 概念提出者,这场大语言模型技术革命中的思 ...
返回顶部