5620亿参数!谷歌发布全球最大视觉语言模型PaLM-E:几乎拥有所有语言能力 能识别图像信息、操控机器人…… 实时
过去几个月时间里,由ChatGPT在全球科技巨头之间引发的人工智能热潮推动了大量语言模型的生产力前置。据《华尔街日报》,虽然谷歌早在两年前就做出了类似ChatGPT的人工智能聊天工具,但谷歌对AI的小心谨慎态度让其失去了对生成式AI的先机。
(相关资料图)
不过,作为硅谷科技巨头,谷歌从来不缺乏“后来居上”的决心和实力。
美西时间3月6日(周一),来自谷歌和德国柏林工业大学的一组人工智能研究人员公布了史上最大视觉语言模型PaLM-E(全称Pathways Language Model with Embodied)。
作为一种多模态具身视觉语言模型 (VLM),PaLM-E能将视觉和语言集成到机器人控制中。谷歌和柏林工业大学称,PaLM-E是迄今为止人类开发的最大规模VLM,其可以在不需要再训练的情况下执行各种任务。此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿(GPT-3 的参数量为1750亿),这是全球已知的最大视觉语言模型。
可分析视觉数据执行高级命令
“我们观察到诸如多模态思维链推理(允许模型分析包括语言和视觉信息的一系列输入),只接受单图像提示训练的多图像推理(使用多个图像作为输入来做出推理或预测)等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess在推特上写道。
据谷歌介绍,当接到“把抽屉里的薯片拿过来”等较为高级的命令时,PaLM-E可以为一个有“手臂”的移动机器人平台(由谷歌Robotics公司开发)生成行动计划,并自行执行任务。机器人能够顺利地从十多个开放式抽屉中找到米饼,拿给研究人员。
在另外一个案例中,研究人员还要求机器人“将所有色块按颜色堆放到不同角落”的指令,以及将“绿色色块推到乌龟旁边”的指令,即便机器人之前没有见过这只乌龟摆件,也能顺利地完成任务。
在图像识别的案例中,PaLM-E识别图像中的已故篮球明星科比·布莱恩特,并可以生成关于他的文本信息,例如他赢得了多少次NBA总冠军戒指。研究人员写道,PaLM-E也是一种“有效的视觉语言模型”。
具体来讲,PaLM-E通过分析来自机器人摄像头的数据来实现对高级命令的执行,而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要,并允许更自主的机器人控制。
此外,PaLM-E也非常具有弹性,能根据所处的具体环境做出反应。例如,PaLM-E模型可以引导机器人从厨房取出一个薯片袋,并且将PaLM-E集成到控制循环中,它可以抵抗任务执行期间可能发生的中断。在谷歌发布的视频中,一名研究人员从机器人手中抓起薯片并进行移动,但最终机器人可以找到这些薯片并再次抓起。
“PaLM-E几乎拥有所有语言能力”
据谷歌和柏林工业大学的合著论文介绍,PaLM-E是一个仅有解码器的大型语言模型(LLM),在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。
由于PaLM-E是基于语言模型,所以它会连续观察图像或传感器数据,并将其编码成与语言符号大小相同的向量序列。这使得模型能够以处理语言的相同方式“理解”感觉信息。
除了RT-1机器人外,PaLM-E还借鉴了谷歌之前在VIT-22B上的工作,后者是谷歌在上月公布的一款视觉语言模型。VIT-22B已经在各种视觉任务上进行了训练,例如图像分类、目标检测、语义分割和图像字幕等。
除了机器人技术外,谷歌的研究人员还观察到了几个有趣的现象。首先,PaLM-E在实验案例中表现出了“正向转移(positive transfer)”,这意味着它可以将所学到的知识和技能从一个任务转移到另一个任务,因此与执行单个任务的机器人模型相比,性能有显著的提高。
此外,谷歌研究人员还观察了PaLM-E大规模参数下的一个趋势:“语言模型规模越大,在进行视觉语言和机器人任务训练时,它就越能保持语言能力——从参数规模上来讲,5620亿参数的PaLM-E几乎拥有所有语言能力。”
谷歌研究人员计划未来将探索PaLM-E在现实世界中有更多应用,例如家庭自动化或工业机器人,也希望PaLM-E能够激发更多关于多模态AI的应用。
《每日经济新闻》记者还注意到,作为AI大战的老对手,微软也已经在“图像+语言模型”的路数上有所布局。在今年2月底发表的研究中,微软就展现了如何使用ChatGPT为大疆Tello无人机编写“找饮料”程序的案例。
微软最近发布的“用于机器人的ChatGPT(ChatGPT for Robotics)”论文,就尝试以类似于谷歌PaLM-E的方式将视觉数据和大型语言模型结合起来,对机器人进行控制。
标签:
精彩推送
5620亿参数!谷歌发布全球最大视觉语言模型PaLM-E:几乎拥有所有语言能力 能识别图像信息、操控机器人…… 实时
过去几个月时间里,由ChatGPT在全球科技巨头之间引发的人工智能热潮推动了大量语言模型的生产力前置。据...
天天热资讯!每经操盘必知(午间版)丨三大股指小幅下跌 6G概念股大幅回暖;北交所直联审核机制迎新进展;TVB母公司大涨近60%
每经操盘必知(午间版)丨三大股指小幅下跌6G概念股大幅回暖;北交所直联审核机制迎新进展;TVB母公司大...
新闻快讯
新闻快讯
- 5620亿参数!谷歌发布全球最大视觉语言模型PaLM-E:几乎拥有所有语言能力 能识别图像信息、操控机器人…… 实时
- 脚冻疮是什么样子图片_脚冻疮图片
- 环球快报:福达股份: 福达股份关于募集资金2022年度存放与实际使用情况的专项报告
- 普希金 焦点播报
- 严跃进:“外墙算建筑面积会增加购房者公摊”系误读
- 吉林省农业农村厅下发通知,全力抓好农机安全生产工作
- 神田沙也加_当前热闻
- 天天热资讯!每经操盘必知(午间版)丨三大股指小幅下跌 6G概念股大幅回暖;北交所直联审核机制迎新进展;TVB母公司大涨近60%
- 儒家五圣
- 足协选拔2006至2010年龄段优秀球员,可“个人自荐”
- 环球通讯!英吉沙肉孔贝_关于英吉沙肉孔贝的简介
- 李白属什么生肖
- 与狗有关的电影2021(与狗有关的电影)-环球新动态
- 中考成绩怎么算打折的分数_现在中考成绩怎么算-世界短讯
- estar训练赛1-4不敌KR战队SLT,无心位置依旧未定,新赛季悬了 世界快报
- 明源云(00909.HK)预期SaaS产品年度收入同比增长约5%至8%
- 伪军是什么意思
- 每日观察!中国主要赏樱区“最佳观花期”预测:从南至北次第开放
- 每日头条!如果这就是爱张学友
- 征信报告怎么看是否失信_征信报告怎么看
- 【新视野】美国大选预演?特朗普和德桑蒂斯隔空较量火药味浓
- 云南楚雄
- 魔力宝贝觉醒:职业选择介绍(一)-消息
- 感恩母亲节祝福语句经典
- his_excellency-当前速读
- 今日热门!我见犹怜txt全集下载_我见犹怜
- 血dk雕文
- 环球头条:微商城是怎么开店的_微商城是怎么做的
- 喻文波竟不“装杯”?谦虚阿水营业,学EZ请看Deft
- 全球今日报丨娱乐圈的鲜活例子:郑恺当众出丑,苗苗“破防”后大哭
- 蔡欣
- 让传统艺术闪耀时代光芒
- 诚实的穆里尼奥!欧联水平不比欧冠差 阿莱格里的尤文图斯很棒-环球观点
- 环球最资讯丨七夕节怎么过
- 婵古诗意思 焦点要闻
- 不到一年,新款变老款,第一批加价买国产X5的人后悔吗?
- 汽车全景摄像头360多少钱一套_汽车全景摄像头价格_全球热消息
- 遥望科技董秘回复:目前项目正在建设中,具体开业时间视政府验收情况 微速讯
- 三胎孩子教育全免费就能促进生育吗
- 【环球时快讯】会计专业描述简短范文_会计专业描述
- 魔兽争霸3:猫头鹰侦察者控图能力强大,却没人用的4大原因
- 王子病的春天txt完整番外百度网盘_王子病的春天txt
- 全球滚动:费兰+阿劳霍,近16年来巴萨首次同场西甲失点+染红
- 弦心距是什么东西_弦心距
- 当前聚焦:踏春石子口,坐着小火车游览齐长城
- 热门:电竞是做什么的
- 力争三分,巴萨官方发布战瓦伦海报:罗贝托领衔出镜
- 世界讯息:2022可以扫出敬业福的福字图片大全
- 假面骑士rx高清国语_假面骑士rx国语全集_新要闻
- 手机怎么制作三屏图片_手机三屏图片制作软件