你的位置:开云(中国)Kaiyun·官方网站 - 登录入口 > 新闻资讯 > 开云(中国)Kaiyun·官方网站 - 登录入口也能作念到饱和的解耦-开云(中国)Kaiyun·官方网站 - 登录入口
开云(中国)Kaiyun·官方网站 - 登录入口也能作念到饱和的解耦-开云(中国)Kaiyun·官方网站 - 登录入口
发布日期:2025-11-05 06:36    点击次数:108

开云(中国)Kaiyun·官方网站 - 登录入口也能作念到饱和的解耦-开云(中国)Kaiyun·官方网站 - 登录入口

OpenAI 初次公开工程规模后果 Atlas 浏览器开云(中国)Kaiyun·官方网站 - 登录入口,其中枢羁系在于专为 AI Agent 重构底层架构,处分了传统浏览器无法适配 Agent 需求的痛点。

今天,OpenAI 公开 Atlas 的中枢本领终了,这是一个成心为 Agent 莳植的浏览器,让 AI 卤莽看到完满的界面渲染,而不是需要像东谈主同样,挨个的点击所有这个词元素,身手获取所有这个词信息

这亦然 OpenAI 初次在工程规模,进行的官方发布

Atlas 看起来即是个 Chromium 套壳,毕竟…你还能看到 Chrome 行使商店,能装 Chrome 插件

Edge、Brave、Arc 也齐是这么,看起来齐是 Chromium 套壳

但底层架构全齐不同Atlas 把 Chromium 所有这个词这个词搬出去了

传统浏览器里,Chromium 挂了,所有这个词这个词浏览器挂Chromium 卡了,浏览器界面随着卡灵验户反馈,在 Sora 这种复杂网页,别的 AI 浏览器会卡住,Atlas 是宽泛的

Atlas 主行使是孤苦的 Swift 行使,Chromium 行为孤苦进度在后台览动,两者通过 IPC 通讯这套架构叫 OWL(OpenAI’s Web Layer)

Atlas 的 OWL 结构

按 OpenAI 的说法,这种方式

启动快:Chromium在后台缓缓加载,Atlas界面顷刻间闪现不崩溃:Chromium挂了,Atlas不受影响莳植快:大部单干程师不必编译Chromium,构建从小时级降到分钟级Agent能看清屏幕:强行把所有这个词弹窗合成回主页面

在样式莳植上,也能作念到饱和的解耦,新职工第一世界午就能提吩咐码

OWL 怎么作念的

Atlas 和 Chromium 之间通过 Mojo 通讯,这是 Chromium 我方的 IPC 系统

OpenAI 写了自界说的 Swift 绑定,让 Swift 行使能奏凯调用 Chromium 的接口

这里有几个中枢意见:

Session:全局限制ChromiumProfile:料理用户成就WebView:限制单个网页的渲染、输入、导航LayerHost/Client:在Atlas和Chromium之间交换渲染信息

OWL 职责暗示

网页现实怎么闪现?

Chromium 渲染好的 layer 通过 CALayerHost 传给 Atlas

Atlas 用 NSView 把这个 layer 嵌进界面

输入事件怎么处理?

event 的处理

Atlas 收到用户输入(鼠标、键盘),翻译成 Chromium 能交融的 WebInputEvent 时势,发给 Chromium

若是网页没处理这个事件,Chromium 会把事件清偿来,Atlas 从头合成 NSEvent,给行使的其他部分处理Agent mode 的异常处理

这里的想路很得力

computer use model 需要一张完满的屏幕截图

问题来了,浏览器里有些元素是孤苦渲染的

<select> 下拉菜单、热诚选拔器、日历选拔器,这些在 Chromium 里是单独的弹窗

AI 只看主页面,看不到这些弹出元素

OpenAI 的作念法:强行把所有这个词弹窗合成回主页面

这些弹窗天然是孤苦窗口,但有我方的 RenderWidgetHostView 和 AcceleratedWidget

OWL 用跟主页面同样的 delegated rendering 模子,把这些弹窗的 layer 捏出来,按正确的坐标位置合成回主页面

AI 拿到的即是一张完满的截图

渲染步履

还有个细节

Agent 生成的输入事件,奏凯发给 renderer,不走 browser 层

这么能保持沙箱领域,Agent 弗成通过快捷键触发浏览器的特权操作

关联的任务,也进行了烦懑

Agent browsing 不错跑在 ephemeral context 里,不分享用户的 Incognito profile

每个 agent session 用孤苦的 StoragePartition,全齐烦懑

session 扫尾,所有这个词 cookies 和站点数据一齐丢弃

你不错同期开多个 agent session,每个齐在孤苦的 tab 里,相互烦懑工程效力的改变

Chromium 代码库太大

checkout 要很久,编译要几个小时

OWL 把 Chromium 编译成预构建的 binary,里面分发

大部分作念 Atlas 的工程师,只编译 Swift 代码,几分钟完事

OpenAI 有个工程文化:新职工第一世界午就能提吩咐码

对 Chromium 这种样式,这简直作念不到

但 OWL 作念到了

何况因为 UI 层全齐重写,对上游 Chromium 的编削很少,升级版块也容易说两句

传统浏览器是为东谈主策划的,Agent 浏览器要处分的问题不同样

东谈主需要多样交互,进行扶植明白,不错点击菜单然后弹出阅读

AI 则不同,需要在一张图里看到所有这个词元素,需要快速反映

新的浏览器架构,很有必要

本文由东谈主东谈主齐是居品司理作家【赛博禅心】,微信公众号:【赛博禅心】,原创/授权 发布于东谈主东谈主齐是居品司理,未经许可,辞让转载。

题图来自Unsplash开云(中国)Kaiyun·官方网站 - 登录入口,基于 CC0 契约。



相关资讯