1. 视频理解中的帧选择挑战与DIG框架概述在长视频理解任务中处理海量视频帧数据一直是个棘手问题。传统方法通常采用均匀采样策略比如从一段10分钟的视频中每隔固定时间抽取一帧。这种方法虽然计算效率高但存在明显的性能瓶颈——当视频内容复杂度增加时均匀采样会遗漏关键信息帧导致模型理解能力受限。我们团队在实验中发现一个有趣现象视频问答的查询类型本质上可以分为两大类。第一类是全局性查询Global Queries比如这段视频主要讲了什么或视频的整体氛围如何第二类是局部性查询Localized Queries比如第三分钟出现的那个穿红衣服的人做了什么或车祸发生前几秒有哪些异常情况。基于这个发现我们提出了DIGDynamic and Intelligent Grouping框架其核心创新在于查询类型感知的智能路由机制针对全局查询的轻量级均匀采样路径面向局部查询的多阶段内容感知筛选CAFS路径完全无需训练的即插即用架构2. DIG框架技术细节解析2.1 查询分类模块设计查询分类是DIG框架的第一道关卡其准确性直接影响后续处理路径的选择。我们设计了基于大语言模型LLM的三阶段分类流程意图分析模型需要判断查询是寻求整体理解还是特定细节。例如描述视频的主要内容 → 全局查询 1分30秒时画面左侧出现什么物体 → 局部查询视频类型推理不同类型的视频对查询分类有提示作用。比如教学视频中演示了哪些步骤通常是全局查询而监控视频中穿黑色外套的人何时出现则属于局部查询。指代消解检测查询中是否包含具体的时间/空间定位词如第X分钟、画面左侧或特定对象描述。我们在Qwen3-Next-80B模型上的测试显示该分类器对局部查询的识别准确率达87.02%全局查询为38.26%。这个看似不平衡的准确率实际上不影响整体性能——因为即使误判全局查询使用局部处理路径只会轻微增加计算量而不会显著降低准确率。2.2 全局查询处理路径对于被识别为全局查询的任务DIG采用改进的均匀采样策略def uniform_sampling(video_frames, target_num8): total_frames len(video_frames) stride max(1, total_frames // target_num) return [video_frames[i] for i in range(0, total_frames, stride)]与传统方法不同我们引入了动态采样密度调整当视频时长超过5分钟时前30秒和后30秒的采样密度加倍检测到场景变换剧烈的段落自动增加采样点保留1-2个随机采样位置作为冗余校验这种策略在保持低计算成本约200 TFLOPs的同时能够捕捉视频的关键全局特征。2.3 局部查询的CAFS算法内容感知帧选择CAFS是DIG框架的核心创新包含三个关键阶段2.3.1 初始峰值检测首先计算连续帧间的视觉差异度。我们使用DINOv2模型提取帧特征然后计算余弦相似度作为距离度量frame_features [dino_model.extract(frame) for frame in video_frames] distances [1 - cosine_sim(frame_features[i], frame_features[i1]) for i in range(len(frame_features)-1)]通过寻找局部最大值点识别潜在的内容边界peaks [] for i in range(1, len(distances)-1): if distances[i-1] distances[i] distances[i1]: peaks.append(i)2.3.2 地形显著性过滤不是所有峰值都代表真正的场景转换。我们引入地形显著性Topographic Prominence概念来过滤噪声def calculate_prominence(peak_idx, distances): # 向左搜索最低点 left_min min(distances[:peak_idx]) # 向右搜索最低点 right_min min(distances[peak_idx1:]) return distances[peak_idx] - max(left_min, right_min) filtered_peaks [p for p in peaks if calculate_prominence(p, distances) 0.1]2.3.3 关键帧选择在识别出重要场景边界后我们采用以下策略选择代表性帧每个稳定场景的中间帧作为默认代表对于超过5秒的长场景额外选取动作变化最大的帧结合查询中的时间线索如前10秒调整采样权重3. 系统实现与优化技巧3.1 计算效率优化DIG框架在Qwen2.5-VL-7B模型上的实测性能表现全局查询路径约200 TFLOPs局部查询路径680-720 TFLOPs端到端延迟比全帧处理快3.2倍关键优化点包括帧特征缓存所有提取的视觉特征存入内存数据库避免重复计算异步流水线查询分类与初始帧采样并行执行动态批处理将多个视频的相似查询批量处理3.2 实际部署经验在LongVideoBench数据集上的部署过程中我们总结了以下实用技巧重要提示当视频包含大量快速剪辑如电影预告片时应将CAFS的地形显著性阈值从0.1降至0.05以避免遗漏重要场景切换。另一个常见问题是查询中包含模糊时间参考比如事故发生后不久。针对这种情况我们开发了时间关系解析模块识别事件锚点如事故在CAFS选取的帧附近扩展搜索窗口使用语言模型估计不久对应的时间范围通常为30-60秒4. 性能评估与对比分析4.1 基准测试结果我们在三个主流基准上的测试数据数据集准确率提升FLOPs节省处理时间缩短LongVideoBench2.5%35%41%MLVU3.1%28%37%VideoMME1.8%31%33%特别值得注意的是在超过10分钟的超长视频上DIG的优势更加明显256帧输入时准确率比基线高6.2%计算量仅为全帧处理的1/44.2 错误案例分析通过分析错误样本我们发现主要失败模式包括跨场景事件查询涉及多个场景的关联如比较开头和结尾的天气变化细粒度动作需要分析连续微小动作的任务如判断投篮手势是否正确时间模糊使用之前/之后等相对时间描述的复杂查询针对这些情况我们正在开发增强版CAFS算法主要改进包括引入光流分析捕捉连续动作增加时间关系推理模块结合音频线索辅助场景理解5. 扩展应用与未来方向DIG框架的灵活性使其可应用于多种视频理解场景视频摘要生成全局路径快速捕捉主线局部路径精炼关键细节监控视频分析对异常事件检测等局部查询特别有效教育视频处理既能回答概念性问题也能定位具体演示步骤在实际部署中我们建议根据应用场景调整以下参数教育视频增加全局查询的采样密度体育视频降低CAFS显著性阈值监控视频侧重时间定位精度而非内容多样性未来工作将集中在三个方向动态混合全局与局部路径结合语音转录文本的多模态理解面向边缘设备的轻量化版本