极客中国网
您所在的位置:极客中国网 > 互联 >

星海图:具身智能VLA模型

发布时间:2025-03-27 04:29:41     来源:盖世汽车     阅读量:6259   

过去两年,机器人智能领域取得了显著成就。斯坦福大学成功实现了桌面级别的机器人操作,涵盖双臂系鞋带、操作透明物体等精细动作。通过模仿学习技术,机器人已能执行家庭日常操作,并在医疗领域完成精细的缝...

过去两年,机器人智能领域取得了显著成就。斯坦福大学成功实现了桌面级别的机器人操作,涵盖双臂系鞋带、操作透明物体等精细动作。通过模仿学习技术,机器人已能执行家庭日常操作,并在医疗领域完成精细的缝线作业。

2025年3月13日,在第三届具身智能机器人产业发展论坛上,星海图首席科学家赵行提到,高质量的真实数据与模仿学习的结合,被视为推动通用机器人智能发展的关键路径。在数据金字塔结构中,高质量的真实数据位于顶端,数量有限但质量上乘。相比之下,仿真数据和互联网数据分别位于中间和底部,尽管易于获取,但与真实世界场景存在差距。因此,在推动机器人智能发展的过程中,有效获取和利用这些不同层级的数据至关重要。

星海图技术通过模仿、学习并利用高质量数据,已在机器人本体上实现了多项复杂且有趣的任务,例如自动清理桌面垃圾、精确调配果汁等。全球多家机构,包括斯坦福大学的一个课题组已采购星海图的机器人,用于执行一系列家务任务,如衣物整理、货架摆放、家庭清洁等。

星海图首席科学家

以下为演讲内容整理:

星海图是一家集本体制造、智能研发以及解决方案提供于一体的全栈具身智能公司。在星海图的发展进程中,我们经常被问到三个问题。一是数据问题,在数据运用方面,究竟该采用真实数据、仿真数据,还是互联网数据?二是算法问题,在算法开发上,应选择开发模块化算法、端到端算法,还是大模型算法?三是我们作为一家创业型公司如何获取数据,以及如何提升机器学习或模型学习的算法效率,从而实现成本可控?

这三个问题的答案就蕴含在星海图所开展的两项主要工作中。首先探讨第一个问题,即应采用何种具身智能数据。在过去两年间,机器人具身智能领域取得了重大技术突破,例如斯坦福大学的Aloha系统能够使桌面级机器人双臂完成精细动作。在其他demo中,还出现了诸如为机器人设定戴隐形眼镜、操作透明物体等颇具趣味的任务。有些机器人已能够完成一些通用的家庭任务,并实现模仿学习与动作学习。

图源:演讲嘉宾素材

约翰霍普金斯大学与斯坦福大学的团队进一步提出,运用模仿学习可使机器人在医疗领域完成缝线等精细操作。从这一系列技术进展中可以看出,模仿学习与高质量真实数据相结合,是通往通用具身智能的一条重要路径,甚至是当前业内认可度与技术收敛度均较高的一条技术路线。

具身智能涉及诸多数据。首先是高质量真机采集的数据,这类数据处于数据金字塔的顶端,数量稀少,质量最高,也是业界最为认可的数据类型。在数据金字塔的中部是仿真数据,其优势在于能够借助计算机计算来模拟物理世界的时间进程,从而实现更高效的数据生成,这类数据与真实世界之间存在着显著差距。数据金字塔的底层是互联网数据,互联网数据获取极为便捷,甚至无需复杂计算,仅通过互联网搜索即可收集。但其缺点是数据质量良莠不齐,更为关键的是,此类数据通常未记录动作相关信息。

在这样一个数据金字塔体系中,最为理想的是获取金字塔顶端的高质量数据。星海图运用模仿学习方法,结合高质量数据,在我们自己的机器人本体上做了许多有意思的任务,比如桌面清扫垃圾,在这个任务里,我们把任意垃圾放在桌面的任意位置,机器人会多次进行清扫,如果第一次不成功会再次进行尝试,直到完成任务。另外还有冲果汁的任务,机器人会抓取杯子、摇果汁粉,进行精细的果汁粉数量倾倒,然后接取适量的水,最后完成果汁冲泡。

全世界有许多研究团队都采购了星海图的机器人,比如斯坦福大学的李飞飞课题组,使用星海图的机器人完成一系列的家务任务,包括整理衣物、货架放置、家庭的清洁等,这些任务都是使用端到端模型以及高质量的数据采集实现的。

我们相信,具身智能的下一步是需要构建基础模型,第一个原因是是具身智能机器人和自动驾驶的任务不一样,它需要用一个模型。我们希望具身智能机器人能够完成各种各样的任务,比如家庭作业、物流分拣、商业作业等。如何把在一个环境中的各种各样的任务集成在一个模型中,使用统一的架构是未来一大方向。在语言模型领域,我们能够通过GPT完成各种任务;视频生成领域,我们希望通过一个文声视频的模型,能够生成各种各样的视频。在具身智能领域,我们相信也会有这样一个能够完成多种任务的模型范式出现。

第二个原因是我们希望模型的能力能够随着数据质量、数量的增长持续提升。在人工智能领域,尤其是大语言模型范畴内,模型的规模、所投入的计算量以及使用的数据量,均能持续推动模型性能提升。模型性能的优化不再单纯依赖工程师手动调参,或对具体模型架构设计进行修改,这一规律与产业发展趋势高度契合。

第三个原因在于我们期望具身基础模型能够实现广泛的泛化能力。具身智能机器人与传统机器人的差异在于,我们期望所构建的模型,并非仅能在工厂的某一道工序中运行,而是在面对全新环境、全新物体时,均能展现出泛化能力。这种泛化能力涵盖了物体类内泛化、物体类间泛化、物体组合泛化以及跨任务泛化等多个方面。

星海图的具身基础模型分为两个阶段,当前正在开发的是第一阶段,即基于模仿学习的VOA全身智能模型,采用的范式类似于大语言模型的预训练与后训练方式。在预训练阶段,运用统一的EOA模型架构,借助海量真机数据,并以自有RSR数据作为辅助进行预训练。进入后训练阶段,针对垂直领域特定任务,仅需采集少量真机数据用于后训练,从而大幅降低单任务的编辑数据成本。

在第二阶段,我们将通过模仿学习与强化学习的联合优化,实现全身智能以及全自由度的联合控制,以完成更为复杂的任务,并在具体任务中实现近乎零样本的泛化。除模型研发外,星海图还关注空间智能的发展。具身智能与传统视觉AI存在显著差异,由于机器人在物理世界中作业,因此需充分理解三维空间与时间的规律。基于此,星海图推出了业界首个具身智能的Real to Seem to Real引擎,即RSR引擎。

RSR引擎基于纯视觉方案,对真实物理世界进行数字孪生重建。在数据采集方面,仅采用消费级采集设备,如手机、相机等,其采集成本仅为专业采集设备的1% 。

下图所示是我们使用手机在清华大学校园内拍摄后进行三维重建所得。在Real to Seem to Real中的Real to Seem环节,以纯视觉作为输入,运用基于Gaussian Splatting的算法开展三维重建工作。完成重建后,不仅能够实现全新视角的渲染、三维几何结构的重构,更进一步基于三维空间的一致性,达成了三维层面的语义分割与实例分割。

图源:演讲嘉宾素材

在seem to real阶段,我们能够对场景予以重构,创建基于现实场景的全新场景。基于这些新生成的数据,用于训练机器人的操作模型与导航模型,以此实现机器人的高效学习并提升其性能表现。

星海图的空间智能引擎RSR同样分为两个阶段。第一阶段运用基于Gaussian Splatting技术的视觉孪生,对机器人作业场景进行重建,可实现万平米规模且达到厘米级精度的场景还原。与此同时,构建规模达10万级别的物体库与场景库,有力提升具身感知与导航的操作能力。在RSR的第二阶段,将采用泛化的三维视觉世界模型,实现对开放场景的重建,对动态物体、柔性物体进行建模,并借助众包方式构建物体库与场景库,最终达成泛化的场景理解与空间理解能力,显著提高EFM的数据利用效率。

空间智能与具身基础模型是我们在具身智能研发进程中最为关键的两大工作内容。具身智能基础模型作为机器人的在线推理模型,通过构建数据闭环来提升模型能力;而具身智能引擎RSR则是部署于云端的离线数据引擎,它基于机器人在作业场景中采集的海量数据,开展高质量的三维重建、物体分割、场景重建、场景解耦及场景重构工作,进而助力机器人实现更高数据效率的泛化。

关于真实世界中高质量数据获取成本高昂的问题,答案就蕴含于我们的空间智能引擎之中。通过数字孪生场景的重构或数据增广,能够大幅提高真实数据的采集效率。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

猜你喜欢
凯迪拉克纯电LYRIQ锐歌:价格调整,37.97万元起,优惠抵扣高达2万元!
凯迪拉克纯电LYRIQ锐歌:价格调整,37.97万元起,优惠抵扣高
7月10日消息,凯迪拉克最新纯电动车型LYRIQ锐歌进行了价格和权益的调整。根据官方发布的信息,LYRIQ锐歌的起售价为37.97万元,并提供了多项购车优惠。此次调整的活动时间为7月10日至8月31日,期间下定可享受2000元抵扣2万元或3......
2023-07-07 12:26:00
东风风神发布全新SUV皓瀚,搭载马赫电混技术,刷新续航表现
东风风神发布全新SUV皓瀚,搭载马赫电混技术,刷新续航表现
7月10日消息,东风风神汽车正式发布了其最新款SUV车型——皓瀚,并开始接受预订。此次发布的车型名为“快舟-皓瀚号”,宛如一艘快速航行的太空飞船。与此同时,东风风神还宣布了一项重大的科技突破——快舟一号甲固体运载火箭即将进行首次发射。根据东......
2023-07-07 12:26:00
LYRIQ锐歌价格大降6万元!上汽通用凯迪拉克推出多项优惠政策
LYRIQ锐歌价格大降6万元!上汽通用凯迪拉克推出多项优惠政策
7月10日消息,上汽通用凯迪拉克对其旗下纯电车型LYRIQ锐歌进行了全面的价格和优惠政策调整,为消费者提供了更具吸引力的购车条件。首先,LYRIQ锐歌的价格调整方案已经正式推出。根据最新调整,锐歌的售价区间定格在37.97万元到41.97万......
2023-07-07 12:17:00
泰国暹罗汽车集团与中国汽车制造商洽谈高端电动汽车合作
泰国暹罗汽车集团与中国汽车制造商洽谈高端电动汽车合作
7月10日消息,泰国暹罗汽车集团副总裁SebastienDupuy在最近的一次采访中透露,该公司正在与几家中国汽车制造商就潜在的合作关系进行谈判,重点关注的领域是高端电动汽车。泰国投资促进委员会(BOI)秘书长纳里特(NaritTherds......
2023-07-07 12:17:00
吉利发布全新博越L荣耀版,智能配置升级!
吉利发布全新博越L荣耀版,智能配置升级!
7月10日消息,吉利近日发布了全新博越L荣耀版的上市消息,标价12.87万元,优惠价11.87万元。据ITBEAR科技资讯了解,这款全新博越L荣耀版在过去的六月份销量达到了10028辆,持续八个月销量突破万辆,如今荣耀版的发布更是给人一种冠......
2023-07-07 12:16:00
聚焦WAICSoul展示智能对话机器人“AI苟蛋”助力AI与兴趣社交融合
聚焦WAICSoul展示智能对话机器人“AI苟蛋”助力AI与兴趣社
7月6日-8日,主题为“智联世界,生成未来”的第六届世界人工智能大会在上海举办。据悉,今年的世界人工智能大会参展企业数量、展览面积均创历届之最,集中展现了人工智能领域创新应用落地的突破性成果。SoulApp作为社交领域代表受邀参加本次大会,......
2023-07-07 10:36:00
10家上市车企销量揭晓:理想汽车称霸榜首
10家上市车企销量揭晓:理想汽车称霸榜首
07月10日消息,车企们纷纷公布了2023年上半年的销量成绩单。根据最新数据显示,10家上市车企中,理想汽车以最高的销量完成率脱颖而出。据ITBEAR科技资讯了解,根据中国乘用车市场数据的初步统计,2023年6月,乘用车市场零售量达到了18......
2023-07-05 14:52:00
Windows 365消费者版本:云端桌面服务迎来个人用户时代
Windows 365消费者版本:云端桌面服务迎来个人用户时代
7月10日消息,微软计划推出适用于个人用户的Windows365消费者版本,以满足用户对云服务的需求。根据WindowsLatest的报道,该消费者版本预计将比商业版和企业版更为便宜,并可能在秋季正式推出。Windows365是微软提供的云......
2023-07-05 13:55:00