新闻资讯
热点资讯
- 开云体育吉祥汽车罢了生意收入1676.84亿元-开云(中国)Kaiyun·官方网站 - 登录入口
- 开云体育毛囊受损:化疗药物可能导致毛囊受损-开云(中国)Kaiyun·官方网站 - 登录入口
- 开云体育(中国)官方网站 该发言东谈主示意-开云(中国)Kaiyun·官方网站 - 登录入口
- 开云(中国)Kaiyun·官方网站 - 登录入口旨在加速收入增长及答复-开云(中国)Kaiyun·官方网站 - 登录入口
- 开云体育后生们将生态愿景植入沃野:“樱花扮靓茶园景不雅-开云(中国)Kaiyun·官方网站 - 登录入口
- 开yun体育网可能现场抢房氛围也影响他了-开云(中国)Kaiyun·官方网站 - 登录入口
- 开yun体育网面对面前复杂多变的外部环境-开云(中国)Kaiyun·官方网站 - 登录入口
- 体育游戏app平台北京首套房贷最低首付比例从当前的30%调遣至20%-开云(中国)Kaiyun·官方网站 - 登录入口
- 开yun体育网非公认管帐准则下的毛利同比增长73.8%-开云(中国)Kaiyun·官方网站 - 登录入口
- 体育游戏app平台何况我方小的时候就照旧是孤儿-开云(中国)Kaiyun·官方网站 - 登录入口
- 发布日期:2025-11-05 06:36 点击次数:108

OpenAI 初次公开工程规模后果 Atlas 浏览器开云(中国)Kaiyun·官方网站 - 登录入口,其中枢羁系在于专为 AI Agent 重构底层架构,处分了传统浏览器无法适配 Agent 需求的痛点。

今天,OpenAI 公开 Atlas 的中枢本领终了,这是一个成心为 Agent 莳植的浏览器,让 AI 卤莽看到完满的界面渲染,而不是需要像东谈主同样,挨个的点击所有这个词元素,身手获取所有这个词信息
这亦然 OpenAI 初次在工程规模,进行的官方发布
Atlas 看起来即是个 Chromium 套壳,毕竟…你还能看到 Chrome 行使商店,能装 Chrome 插件

Edge、Brave、Arc 也齐是这么,看起来齐是 Chromium 套壳
但底层架构全齐不同Atlas 把 Chromium 所有这个词这个词搬出去了
传统浏览器里,Chromium 挂了,所有这个词这个词浏览器挂Chromium 卡了,浏览器界面随着卡灵验户反馈,在 Sora 这种复杂网页,别的 AI 浏览器会卡住,Atlas 是宽泛的
Atlas 主行使是孤苦的 Swift 行使,Chromium 行为孤苦进度在后台览动,两者通过 IPC 通讯这套架构叫 OWL(OpenAI’s Web Layer)
Atlas 的 OWL 结构
按 OpenAI 的说法,这种方式
启动快:Chromium在后台缓缓加载,Atlas界面顷刻间闪现不崩溃:Chromium挂了,Atlas不受影响莳植快:大部单干程师不必编译Chromium,构建从小时级降到分钟级Agent能看清屏幕:强行把所有这个词弹窗合成回主页面在样式莳植上,也能作念到饱和的解耦,新职工第一世界午就能提吩咐码
OWL 怎么作念的Atlas 和 Chromium 之间通过 Mojo 通讯,这是 Chromium 我方的 IPC 系统
OpenAI 写了自界说的 Swift 绑定,让 Swift 行使能奏凯调用 Chromium 的接口
这里有几个中枢意见:
Session:全局限制ChromiumProfile:料理用户成就WebView:限制单个网页的渲染、输入、导航LayerHost/Client:在Atlas和Chromium之间交换渲染信息OWL 职责暗示
网页现实怎么闪现?
Chromium 渲染好的 layer 通过 CALayerHost 传给 Atlas
Atlas 用 NSView 把这个 layer 嵌进界面
输入事件怎么处理?
event 的处理
Atlas 收到用户输入(鼠标、键盘),翻译成 Chromium 能交融的 WebInputEvent 时势,发给 Chromium
若是网页没处理这个事件,Chromium 会把事件清偿来,Atlas 从头合成 NSEvent,给行使的其他部分处理Agent mode 的异常处理
这里的想路很得力
computer use model 需要一张完满的屏幕截图
问题来了,浏览器里有些元素是孤苦渲染的
<select> 下拉菜单、热诚选拔器、日历选拔器,这些在 Chromium 里是单独的弹窗
AI 只看主页面,看不到这些弹出元素
OpenAI 的作念法:强行把所有这个词弹窗合成回主页面
这些弹窗天然是孤苦窗口,但有我方的 RenderWidgetHostView 和 AcceleratedWidget
OWL 用跟主页面同样的 delegated rendering 模子,把这些弹窗的 layer 捏出来,按正确的坐标位置合成回主页面
AI 拿到的即是一张完满的截图
渲染步履
还有个细节
Agent 生成的输入事件,奏凯发给 renderer,不走 browser 层
这么能保持沙箱领域,Agent 弗成通过快捷键触发浏览器的特权操作
关联的任务,也进行了烦懑
Agent browsing 不错跑在 ephemeral context 里,不分享用户的 Incognito profile
每个 agent session 用孤苦的 StoragePartition,全齐烦懑
session 扫尾,所有这个词 cookies 和站点数据一齐丢弃
你不错同期开多个 agent session,每个齐在孤苦的 tab 里,相互烦懑工程效力的改变
Chromium 代码库太大
checkout 要很久,编译要几个小时
OWL 把 Chromium 编译成预构建的 binary,里面分发
大部分作念 Atlas 的工程师,只编译 Swift 代码,几分钟完事
OpenAI 有个工程文化:新职工第一世界午就能提吩咐码
对 Chromium 这种样式,这简直作念不到
但 OWL 作念到了
何况因为 UI 层全齐重写,对上游 Chromium 的编削很少,升级版块也容易说两句
传统浏览器是为东谈主策划的,Agent 浏览器要处分的问题不同样
东谈主需要多样交互,进行扶植明白,不错点击菜单然后弹出阅读
AI 则不同,需要在一张图里看到所有这个词元素,需要快速反映
新的浏览器架构,很有必要
本文由东谈主东谈主齐是居品司理作家【赛博禅心】,微信公众号:【赛博禅心】,原创/授权 发布于东谈主东谈主齐是居品司理,未经许可,辞让转载。
题图来自Unsplash开云(中国)Kaiyun·官方网站 - 登录入口,基于 CC0 契约。
