谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型 ——Palm-E,参数量高达 5620 亿(GPT-3 的参数量为 1750 亿) … 作为一种多模态具身视觉语言模型(VLM),Palm-E 不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练 … 谷歌研究人员计划探索 Palm-E 在现实世界场景中的更多应用,例如家庭自动化或工业机器人。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验