04月
01日
亚马逊发布 AI 智能体 Nova Act:可自主控制浏览器完成任务
美国东部时间2025 年 3 月 31 日,亚马逊宣布推出新一代 AI 智能体 Nova Act,该技术由亚马逊 AGI 旧金山实验室(新成立的通用人工智能研究部门)开发,能够模仿人类操作网页浏览器执行点击按钮、输入文本等基础任务,并能根据复杂指令分解执行步骤。此举标志着亚马逊在 AI 智能体领域与谷歌、OpenAI 等巨头的竞争进一步升级。
Nova Act 是亚马逊 Nova 系列模型的最新成果。去年 12 月,该实验室已发布了三款文本生成模型(Micro、Lite、Pro)及图像生成模型 Canvas、视频生成模型 Reel。此次新增的智能体功能进一步拓展了应用边界:用户可通过自然语言直接下达包含多步骤的开放式指令,例如“规划一条从我家出发连逛三家商店并在傍晚 6 点观影的最佳路线”,Nova Act 将自动拆分任务、调用地图工具完成路径计算与时间安排。
其核心能力表现为像人类一样“理解”网页界面。亚马逊 AGI 实验室高级副总裁罗希特·普拉萨德(Rohit Prasad)强调,团队致力于使 AI 智能体形成与人相同的“UI 直觉”——包括识别图标、表单、网页元素等,并通过与交互界面的动态适配完成目标。为此,亚马逊同步开放了 Nova Act SDK 开发工具包,允许开发者基于此构建更复杂的代理程序。例如,电商企业可训练定制化客服智能体,在用户页面自动填写退换货表单并预约快递。
当前,“自主执行任务”的 AI 智能体已成为技术巨头的必争之地。此前,Anthropic 于 2023 年 10 月推出可操作浏览器界面的 Claude 实验版本,谷歌则在 12 月宣布测试旗舰模型 Gemini 的浏览器控制功能。亚马逊此举显然希望借 Nova Act 抢占先机,尤其依托其云计算服务 Amazon Bedrock(云端托管AI模型的开发平台)构建开发者生态。普拉萨德表示:“我们希望 Nova Act 激励开发者快速测试创意,并通过 Bedrock 实现规模化落地。”
为扩大技术影响力,亚马逊推出了专用网站 nova.amazon.com,向开发者及技术爱好者开放基础模型试用权限,包括图像、视频生成及最新的智能体功能。即日起,开发者可注册下载 SDK 工具包或在云端测试 Nova 系列模型。分析指出,这一动作不仅为亚马逊云业务吸引增量客户,也为未来将智能体技术整合至 Alexa、电商服务等场景铺路。