你的位置：开云app登录入口 > 开云篮球 > 开云app Video版的Deep Research来了？先浏览再定位后精读：精度提升token消耗反降58.3%

热点资讯

开云app登录入口

开云app Video版的Deep Research来了？先浏览再定位后精读：精度提升token消耗反降58.3%

发布日期：2026-01-24 11:48 点击次数：186

在当前的 AI Research 浪潮中，Autonomous Agents 已经改变了我们获取信息的方式——从被动接收到主动检索。

然而，现有的 Agent 似乎都有一个共同的处理盲区：视频。

视频是互联网上信息密度最高的模态。但现有的 AI 要么是阅读理解高手（处理文本），要么只能盯着被喂到嘴边的一小段视频片段做问答。

真正的 Agentic Video Browsing 应该是什么样的？

它应该像人类一样：在海量视频中主动搜索，通过标题筛选，快速拖动进度条定位，最后只在关键时刻"全神贯注"地观看细节。

基于这个理念，研究团队提出了Video-Browser，并构建了全新的基准测试Video-BrowseComp。

为什么现在的 Agent "看"不好视频？

在开放世界的视频搜索中，现有的方法面临着一个两难的困境（Modality Gap vs. Context Explosion）：

1. 直接视觉推理（Direct Visual Inference，e.g.，RAG）：简单粗暴地把视频帧流喂给 MLLM。效果好，但贵到离谱。长视频会导致 Context 瞬间爆炸，不仅推理慢，还受限于上下文窗口。

2. 文本摘要（Summarization）：先把视频转成文本摘要，再让 Agent 读文本。省钱了，但细节丢了。很多视觉细节（如"那只笔是什么颜色的？"）无法被通用的文本摘要捕捉。

我们需要一种既能像文本搜索一样高效，又能像视觉推理一样精准的新范式。

方法：Video-Browser 与 Pyramidal Perception

为了解决上述问题，研究团队提出了一种名为Pyramidal Perception（金字塔感知）的架构。

正如其名，研究团队将视频处理过程看作一个金字塔，UEDBET中国官方网站由底向上，层层递进，计算量逐级增加，但处理的数据量逐级减少。

整个Video-Browser Agent包含三个核心组件：Planner（规划器）、Watcher（观察者）和 Analyst（分析师）。

其中最核心的 Watcher 采用了三层金字塔机制：

Stage I: Semantic Filter（语义过滤 - 塔底）

面对海量的搜索结果，不需要打开每一个视频。Agent 首先利用 LLM 分析视频的元数据（标题、简介等），以"零视觉成本"快速剔除无关内容，只保留最有希望的候选者。

Stage II: Sparse Localization（稀疏定位 - 塔身）

对于入选的视频，不需要从头看到尾。Agent 结合全量字幕和稀疏采样帧，快速扫描视频结构，定位出可能包含答案的时间窗口（Temporal Proposals）。

Stage III: Zoom-in（聚焦精读 - 塔尖）

{jz:field.toptypename/}

这是最关键的一步。在锁定的极短时间窗口内，开云app登录进行高帧率解码，调用强大的 MLLM 进行精细的视觉推理。将最昂贵的计算资源，只花在最有价值的几秒钟上。

基准测试：Video-BrowseComp

为了验证 Agent 的能力，研究团队发现现有的 video benchmark 往往陷入了被动感知的误区：给模型一段剪好的视频，问它里面发生了什么。

但这并不是真实的 Agent。在真实世界中，Agent 不会有人把视频喂到嘴边，它们必须像人类一样，在开放的互联网海洋中主动寻找线索。为了衡量这种真正的 Agentic 能力，研究团队构建了 Video-BrowseComp。"

这是一个要求 Agent 必须具备 Mandatory Video Dependency（强制视频依赖）的基准测试。其设计原则是：" Hard-to-Find，Easy-to-Verify "。

研究团队设计了三个难度等级：

Level 1 （显式检索）：有明确的关键词，考查定位能力。

Level 2 （隐式检索）：没有直接关键词，需要理解描述并进行推理。

Level 3 （多源推理）：最难级别。答案分散在多个视频中，需要 Agent 像侦探一样拼凑线索。

实验结果：更准，更省

研究团队在 Video-BrowseComp 上对比了 GPT-5.2，Gemini-1.5-Pro 等 SOTA 模型（包括 Search-Augmented 版本）。结果显示：

性能提升：Video-Browser （基于 GPT-5.2）达到了 26.19% 的准确率，相比直接视觉推理基线提升了 37.5%。

效率飞跃：得益于金字塔感知，研究团队的 Token 消耗降低了 58.3%。

打破 Deep Research 垄断：研究团队的方法在视频任务上甚至优于 OpenAI 的 o4-mini-deep-research，证明了在视频领域，高效的视觉感知策略的优异性。

Case Study：眼见为实

来看一个经典的例子（Benchmark Level 3）：

问题：在电影《白日梦想家》中，主角 Walter Mitty 胸口口袋里有一支笔贯穿全片，笔盖的出现暗示了他内心的渴望。请问这支笔是什么颜色的？

❌直接视觉推理（Direct Visual Inference）：看了所有帧，但由于信息过载，模型声称"没看到笔" 。

❌文本摘要（Summarization）：通过将电影转成文本，但文本中没有提到"笔的颜色"这种细节，模型回答"未提及" 。

✅ Video-Browser （Ours）：成功定位到特写镜头，Zoom-in 模式下清晰识别出了红色的笔盖，回答正确！

总结与展望

Video-Browser是迈向 Agentic Open-web Video Browsing 的重要一步。

研究团队通过模拟人类的认知过程——先浏览、再定位、后精读，成功解决了视频搜索中精度与成本的矛盾。

所有的代码、数据和 Benchmark 现已开源，研究团队希望该工作能为社区提供一个新的研究支点。

项目主页：

https://github.com/chrisx599/Video-Browser

论文链接：

https://arxiv.org/abs/2512.23044

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见

推荐资讯

开云app AI作念出《黑传说：潘小脚》！韵味拉满了
此前报说念，OpenAI 最新图像生成模子 GPT-Image-2 上线后，推主 @op7418 愚弄该器用生成了一组以古典名著《金瓶梅》为布景的 ARPG 绽开全国游戏截图，格调偏向古代题材。随后，他又制作了《黑传说：悟空》格调的林冲、武松等脚色作品。近日，该博主再度发布新作，此次以"潘小脚"为主题，制作了一组游...
开云app登录特朗普也没念念到，一场战斗把中国电车送到了新高度
特朗普可能没念念到，我方射向伊朗的每一枚导弹，最终会成为中国新动力车出海路上的叩门砖。百年关税大计，就此毁于一朝。。。自从川子聘请和伊朗火并以来，霍尔木兹海峡就一直处于 " 一忽儿顽固，一忽儿解封 " 的量子现象，全球油价在这种不细现时合手续高潮。布伦特原油从本岁首的 65 好意思元 / 桶，一皆飙升到 4 月最...
开云中国app登录入口寰宇是一个宽广的女团？
继李小冉的《心愿便利贴》幼儿园汇演之后，这周浪姐的出圈位给到了祺嫔，《BONBON GIRLS》唐艺昕一启齿，网友还以为她在骂东谈主呢。光看画面如故很好意思的，等于有些场合我不太衔接：若何目下的公演舞台要搞这样多成例制式的女团舞？从"成团"到"女团"，我是在看《乘风破浪的青娥》如故《创造营 2026》？乘风破浪的...
开云app登录换电加执乐谈L80将于4月28日开启预售
日前，车质网从官方获悉，乐谈 L80 将于 4 月 28 日开启宇宙预售。新车基于蔚来 NT3.0 纯电平台打造，定位大五座 SUV，支执 900V 超等快充 + 蔚来换电。外不雅方面，新车无间乐谈 L90 家眷化盘算推算谈话，以检朴大气为中枢。前脸秉承阻滞式前格栅，两侧大灯犹如"镰刀"方式，并支执自...
开云app登录奥斯卡影后自曝母亲枪杀父亲内情，母亲为了保护她，枪杀了父亲
据 4 月 22 日晚间报谈，被中国影迷亲切称为"塞皇"的奥斯卡影后查理兹塞隆，在一段深度采访中首度靠近镜头，留神揭开了困扰她数十年的家庭伤痕。她安关连词坚强地表现，在她 15 岁那年，她的母亲为了保护她的人命，开枪杀死了她酗酒狂暴的父亲。塞隆 1975 年降生于南非的农场。她的童年偶而社会震动，身边不乏酗酒者，其...

开云篮球

TOP

友情链接：

sdftguanye.com 备案号备案号:

技术支持:®开云app RSS地图 HTML地图