开云app登录入口

开云app Video版的Deep Research来了?先浏览再定位后精读:精度提升token消耗反降58.3%

发布日期:2026-01-24 11:48    点击次数:184

开云app Video版的Deep Research来了?先浏览再定位后精读:精度提升token消耗反降58.3%

在当前的 AI Research 浪潮中,Autonomous Agents 已经改变了我们获取信息的方式——从被动接收到主动检索。

然而,现有的 Agent 似乎都有一个共同的处理盲区:视频。

视频是互联网上信息密度最高的模态。但现有的 AI 要么是阅读理解高手(处理文本),要么只能盯着被喂到嘴边的一小段视频片段做问答。

真正的 Agentic Video Browsing 应该是什么样的?

它应该像人类一样:在海量视频中主动搜索,通过标题筛选,快速拖动进度条定位,最后只在关键时刻"全神贯注"地观看细节。

基于这个理念,研究团队提出了Video-Browser,并构建了全新的基准测试Video-BrowseComp。

为什么现在的 Agent "看"不好视频?

在开放世界的视频搜索中,现有的方法面临着一个两难的困境(Modality Gap vs. Context Explosion):

1. 直接视觉推理(Direct Visual Inference,e.g.,RAG):简单粗暴地把视频帧流喂给 MLLM。效果好,但贵到离谱。长视频会导致 Context 瞬间爆炸,不仅推理慢,还受限于上下文窗口。

2. 文本摘要(Summarization):先把视频转成文本摘要,再让 Agent 读文本。省钱了,但细节丢了。很多视觉细节(如"那只笔是什么颜色的?")无法被通用的文本摘要捕捉。

我们需要一种既能像文本搜索一样高效,又能像视觉推理一样精准的新范式。

方法:Video-Browser 与 Pyramidal Perception

为了解决上述问题,研究团队提出了一种名为Pyramidal Perception(金字塔感知)的架构。

正如其名,研究团队将视频处理过程看作一个金字塔,米兰app官方网站由底向上,层层递进,计算量逐级增加,但处理的数据量逐级减少。

整个Video-Browser Agent包含三个核心组件:Planner(规划器)、Watcher(观察者)和 Analyst(分析师)。

其中最核心的 Watcher 采用了三层金字塔机制:

Stage I: Semantic Filter(语义过滤 - 塔底)

面对海量的搜索结果,不需要打开每一个视频。Agent 首先利用 LLM 分析视频的元数据(标题、简介等),以"零视觉成本"快速剔除无关内容,只保留最有希望的候选者。

Stage II: Sparse Localization(稀疏定位 - 塔身)

对于入选的视频,不需要从头看到尾。Agent 结合全量字幕和稀疏采样帧,快速扫描视频结构,定位出可能包含答案的时间窗口(Temporal Proposals)。

Stage III: Zoom-in(聚焦精读 - 塔尖)

{jz:field.toptypename/}

这是最关键的一步。在锁定的极短时间窗口内,开云app登录进行高帧率解码,调用强大的 MLLM 进行精细的视觉推理。将最昂贵的计算资源,只花在最有价值的几秒钟上。

基准测试:Video-BrowseComp

为了验证 Agent 的能力,研究团队发现现有的 video benchmark 往往陷入了被动感知的误区:给模型一段剪好的视频,问它里面发生了什么。

但这并不是真实的 Agent。在真实世界中,Agent 不会有人把视频喂到嘴边,它们必须像人类一样,在开放的互联网海洋中主动寻找线索。为了衡量这种真正的 Agentic 能力,研究团队构建了 Video-BrowseComp。"

这是一个要求 Agent 必须具备 Mandatory Video Dependency(强制视频依赖)的基准测试。其设计原则是:" Hard-to-Find,Easy-to-Verify "。

研究团队设计了三个难度等级:

Level 1 (显式检索):有明确的关键词,考查定位能力。

Level 2 (隐式检索):没有直接关键词,需要理解描述并进行推理。

Level 3 (多源推理):最难级别。答案分散在多个视频中,需要 Agent 像侦探一样拼凑线索。

实验结果:更准,更省

研究团队在 Video-BrowseComp 上对比了 GPT-5.2,Gemini-1.5-Pro 等 SOTA 模型(包括 Search-Augmented 版本)。结果显示:

性能提升:Video-Browser  (基于 GPT-5.2)达到了 26.19% 的准确率,相比直接视觉推理基线提升了 37.5%。

效率飞跃:得益于金字塔感知,研究团队的 Token 消耗降低了 58.3%。

打破 Deep Research 垄断:研究团队的方法在视频任务上甚至优于 OpenAI 的 o4-mini-deep-research,证明了在视频领域,高效的视觉感知策略的优异性。

Case Study:眼见为实

来看一个经典的例子(Benchmark Level 3):

问题:在电影《白日梦想家》中,主角 Walter Mitty 胸口口袋里有一支笔贯穿全片,笔盖的出现暗示了他内心的渴望。请问这支笔是什么颜色的?

❌直接视觉推理(Direct Visual Inference):看了所有帧,但由于信息过载,模型声称"没看到笔" 。

❌文本摘要(Summarization):通过将电影转成文本,但文本中没有提到"笔的颜色"这种细节,模型回答"未提及" 。

✅  Video-Browser (Ours):成功定位到特写镜头,Zoom-in 模式下清晰识别出了红色的笔盖,回答正确!

总结与展望

Video-Browser是迈向 Agentic Open-web Video Browsing 的重要一步。

研究团队通过模拟人类的认知过程——先浏览、再定位、后精读,成功解决了视频搜索中精度与成本的矛盾。

{jz:field.toptypename/}

所有的代码、数据和 Benchmark 现已开源,研究团队希望该工作能为社区提供一个新的研究支点。

项目主页:

https://github.com/chrisx599/Video-Browser

论文链接:

https://arxiv.org/abs/2512.23044

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生  � �

感兴趣的小伙伴欢迎关注 � �  了解详情

� � 点亮星标 � �

科技前沿进展每日见



推荐资讯
  • 开云app登录入口 红楼传记二

    5红楼传记五秋桐 荣国府偏院贾赦的居所,长年飘着一股沉腻的香粉与陈年檀香羼杂的气息,压得东谈主喘不过气。秋桐就长在这样的场所,从梳着双丫髻的小丫头,熬成了贾赦身边略得些脸面的大丫鬟。 她生得不算顶好意思,却有一股子泼辣鲜灵的劲儿,眉眼弯弯时带几分媚气,瞪起眼来又暴戾得像根针。贾赦衰老好色,府中丫鬟少有能逃过他的摩挲调笑...

  • 开云中国app登录入口 中国男篮大名单:赵睿领衔,王浩然、贺希宁入选,余嘉豪回想

    开云app登录入口 北京工夫2月23日,中国男篮公布了出征世亚预的14东说念主球员名单。 官方公告 中国男篮将至当天开拔前去日本冲绳冲刺备战2027年国外篮联篮球寰球杯预选赛第二窗口期比赛。评释组抽象筹商比赛针对性、球员伤病情况及在集训和比赛中展现的竞技气象,决定赵继伟(辽宁本钢)、赵睿(北...

  • 开云app 这四星座了不起,财气旺会挣钱,给家中父母长者越来越满盈的生计

    在广袤的星空中,有四个星座以其特有的魔力和运势,为追求资产与家庭幸福的东说念主们指引着标的。今天,让咱们一同揭开这四颗灿艳星辰的神秘,探索它们怎么助力财气亨通,为家中长者带将来益满盈的生计。 最初,让咱们聚焦于金牛座。这个星座以其介怀、耐烦和求实的本性著称,他们天生具备眩惑资产的才略。金牛座的东说念主懂得如安在生计的大...

  • 开云中国app登录入口 5年2.15亿顶薪变废纸!拉文赛季报销,国王已被澈底套牢!

    昆仲们,咱不吹不黑,拿着5年2.15亿好意思元的顶薪,却贯穿多个赛季不竭因伤报销,还能找到比国王队扎克-拉文更溢价的垃圾公约吗?可能也只须比尔能够失色了吧。 开云app登录入口 先说目前的事,本年全明星赛事罢了之后,联系拉文行将接纳右手手术、赛季报销的音尘,立马就引起了外界球迷的凡俗存眷。其...

  • 开云app登录 【民风】“虚岁”和“周岁”,鉴识归根结底是对更生命的不同默契

    诞辰繁荣 开云app登录入口 在中国,说到一个东说念主的年纪,时常会有两个不同的数字,一个是周岁、一个是虚岁。这两个年纪的不同源于其贪图见识不雷同。 周岁是按照外洋通用的年纪贪图表情贪图出来的,它贪图的是拔擢后已渡过的技巧长度(拔擢时是零岁,余数可贪图在内,如三岁零两个月、七岁半等)。 周岁...

开云篮球

TOP
友情链接:

Copyright © 1998-2026 开云app登录入口™版权所有

sdftguanye.com 备案号 备案号: 

技术支持:®开云app  RSS地图 HTML地图