来源:环球市场播报戴尔科技公司首席执行官迈克尔·戴尔周二表示,虽然对计算能力的需求“巨大”,但人工智能数据中心的生产最终将达到顶峰。“我确信在某个时候...
2025-10-08 0
IT之家 10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人而非机器人设计的用户界面中执行操作。这款名为“Gemini 2.5 计算机使用”(Gemini 2.5 Computer Use)的模型,利用“视觉理解与推理能力”分析用户的请求,并完成相应任务,例如填写并提交表单。
该模型可用于用户界面测试,或用于操作那些仅面向人类用户、未提供 API 或其他直接接口的系统。此前,此类模型已应用于谷歌 AI 模式(AI Mode)中的智能体功能,以及研究原型项目“Mariner”,该项目利用 AI 智能体在浏览器中自主执行任务,例如根据食材清单自动将商品添加到购物车。
谷歌此次发布恰逢 OpenAI 在其年度开发者日(Dev Day)宣布推出 ChatGPT 新应用的次日。OpenAI 正持续聚焦其“ChatGPT 智能体”(ChatGPT Agent)功能,该功能可代表用户完成复杂任务。与此同时,Anthropic 公司已于去年发布了其 Claude AI 模型的“计算机使用”(computer use)版本。
IT之家注意到,谷歌发布了一些演示视频,展示了“计算机使用”工具的实际运行效果,并注明视频播放速度已加快至 3 倍。谷歌表示,其计算机使用模型“在多个网页和移动端基准测试中优于现有领先方案”。与 ChatGPT 智能体和 Anthropic 的计算机使用工具不同,谷歌的新 AI 模型仅限于访问浏览器环境,无法操控整个计算机系统。谷歌特别指出,该模型“尚未针对桌面操作系统层级的控制进行优化”,目前支持 13 种操作,包括打开网页浏览器、输入文本,以及拖放页面元素等。
Gemini 2.5 计算机使用模型现已通过 Google AI Studio 和 Vertex AI 向开发者开放。此外,Browserbase 平台也提供了在线演示,用户可实时观看该模型完成诸如“玩一局 2048 游戏”或“浏览 Hacker News 上的热门讨论”等任务。
相关文章
来源:环球市场播报戴尔科技公司首席执行官迈克尔·戴尔周二表示,虽然对计算能力的需求“巨大”,但人工智能数据中心的生产最终将达到顶峰。“我确信在某个时候...
2025-10-08 0
IT之家 10 月 8 日消息,谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本...
2025-10-08 0
台积电的晶圆厂被苹果、英伟达、AMD等顶级芯片设计公司选中,而英特尔则在移动芯片与EUV光刻技术两次关键决策失误中落后!失业君小编 | 文网络 | 图...
2025-10-08 0
近日,话题“微信里的钱包一定要上锁”引起网友热议。有网友表示,微信里的钱包一定要上锁,万一手机丢了,别人也无法使用你的微信钱包。很多网友看了之后,纷纷...
2025-10-08 1
上海的天空,快要被飞机塞满了。最近,一条消息在航空圈炸开了锅:沪苏南通新机场建设投资公司正式成立,上海机场集团持股51%——这意味着传闻多年的“上海第...
2025-10-08 0
就在今日凌晨,苹果推送了 AirPods Pro 2 以及 AirPods 4 的全新固件更新,固件号均为 8A358 。值得注意的是,苹果虽然并未公...
2025-10-08 0
一加OxygenOS 16即将亮相一加近日确认,其基于Android 16的OxygenOS 16系统将于2025年10月16日正式发布,这一日期紧随...
2025-10-08 0
7月6日,小米YU7正式开启全国交付,覆盖全国58个城市。雷军发文表示:今天下午,小米YU7正式交付首批车主。希望这台车,陪伴每一个热爱生活的你和你们...
2025-10-08 11
发表评论