苹果SF-LLaVA-1.5横空出世:128帧搞定长视频分析,多参数版本刷新基准测试纪录

[ad_1]
苹果研究人员成功开发出SlowFast-LLaVA模型的改进版本——SlowFast-LLaVA-1.5(简称SF-LLaVA-1.5),该模型在长视频分析与理解领域的表现,已然超越了众多大型模型。这一突破究竟意味着什么?
简单来讲,当大型语言模型(LLM)接受视频理解训练时,会遵循一套标准化流程:先将视频拆解为若干帧,借助计算机视觉技术提取视觉特征,分析这些特征随时间的变化规律,再将视觉信息与语言体系深度融合,最终以文本形式实现对视频的描述或推理。
不过,有一种极为低效的视频处理方式,即逐帧分析视频。这种方式会产生海量重复信息,因为在大多数情况下,相邻帧之间的差异微乎其微,几乎不存在显著变化。
海量重复信息的存在,极易导致LLM超出其上下文窗口(指模型单次能够承载的最大信息量)。一旦超出这一限制,为保证对话或分析持续推进,LLM会停止对较早标记信息的处理,为预测新标记腾出空间,这无疑会影响视频理解的完整性与准确性。
当然,业界已有更高效的视频LLM训练方案(NVIDIA近期就发布了一篇相关的重要研究论文),但上述内容是理解苹果此次研究的核心背景,需重点关注。
正如苹果研究人员在其论文《SlowFast-LLaVA-1.5:用于长篇视频理解的一系列高效标记视频大型语言模型》中所阐述的:
视频大型语言模型(LLM)将视频感知能力集成到预训练LLM中,能够处理视频信息并针对用户指令生成响应。尽管该领域已取得显著进展,但现有视频LLM仍存在三大明显局限性:
现有模型往往过度依赖长上下文窗口与大量视频帧,不仅效率低下,还难以适配参数规模更小的模型;
多数模型需经过复杂的多阶段训练流程(且通常依赖私有数据集),导致训练过程难以复现;
许多模型仅针对视频任务进行优化,限制了其作为通用模型在图像理解领域的应用价值。
为解决这些痛点,苹果团队首先将目光投向开源模型SlowFast-LLaVA。该模型通过独特的双流架构融合空间与时间信息,已展现出出色的性能:其中“慢速流”以更高的细节精度处理较少的帧,用于捕捉场景中的核心内容;“快速流”则以较低的细节精度处理更多的帧,用于追踪事物随时间的运动轨迹。
在此基础上,苹果团队采取了两步优化策略:第一步,在图像数据上对SlowFast-LLaVA进行微调,构建起通用的视觉推理能力;第二步,利用公共数据集对模型进行图像与视频联合训练,确保模型在学习视频时间结构的同时,不牺牲原有的图像理解能力。
最终,SF-LLaVA-1.5应运而生。该模型系列包含10亿、30亿和70亿三种参数规模,研究人员指出,在一系列视频任务测试中,其性能甚至超越了参数规模更大的模型,部分场景下优势“极为显著”。
事实上,在LongVideoBench、MLVU等长视频基准测试中,苹果的SF-LLaVA-1.5模型在所有参数规模下均刷新了最佳成绩,即便是参数最小的10亿版本也不例外。
此外,该模型还成功克服了前文提及的三大局限性之一,并且在图像任务中同样表现出色,包括知识问答、数学推理、光学字符识别(OCR)以及富文本场景等基准测试,均取得了优异成果。
研究团队还尝试了多种视频压缩策略,但对比后发现,当前的模型设置在处理速度、分析准确性与令牌数量之间达到了最佳平衡。
对于SF-LLaVA-1.5,苹果研究人员将其最大输入帧长度设定为128帧。这意味着,无论分析的是几分钟还是几小时的长视频片段,模型始终仅处理最多128帧——其中快速流选取96个均匀间隔的帧,慢速流选取32个均匀间隔的帧。
针对这一设计,研究人员也客观指出:“这种方法可能会遗漏长视频中的部分关键帧,进而导致模型对视频播放速度的判断出现偏差。(……)SF-LLaVA-1.5的性能仍有提升空间,例如通过调整包括视觉编码器在内的所有参数来优化效果。然而,我们发现,对于长视频LLM而言,这并非易事,因为缓存激活值会带来高昂的GPU内存成本。未来的研究可探索集成内存节省技术,如随机神经网络(BP)等。”
尽管存在上述可优化方向,苹果的研究方案仍使SF-LLaVA-1.5成为该领域的先进模型,且具备一项额外优势——完全基于公共数据集训练,极大降低了应用门槛。目前,SF-LLaVA-1.5已在GitHub和HuggingFace平台开源,完整的研究论文也可在arXiv上查阅。