苹果SF-LLaVA-1.5横空出世：128帧搞定长视频分析，多参数版本刷新基准测试纪录

[ad_1]

苹果研究人员成功开发出SlowFast-LLaVA模型的改进版本——SlowFast-LLaVA-1.5（简称SF-LLaVA-1.5），该模型在长视频分析与理解领域的表现，已然超越了众多大型模型。这一突破究竟意味着什么？

简单来讲，当大型语言模型（LLM）接受视频理解训练时，会遵循一套标准化流程：先将视频拆解为若干帧，借助计算机视觉技术提取视觉特征，分析这些特征随时间的变化规律，再将视觉信息与语言体系深度融合，最终以文本形式实现对视频的描述或推理。

不过，有一种极为低效的视频处理方式，即逐帧分析视频。这种方式会产生海量重复信息，因为在大多数情况下，相邻帧之间的差异微乎其微，几乎不存在显著变化。

海量重复信息的存在，极易导致LLM超出其上下文窗口（指模型单次能够承载的最大信息量）。一旦超出这一限制，为保证对话或分析持续推进，LLM会停止对较早标记信息的处理，为预测新标记腾出空间，这无疑会影响视频理解的完整性与准确性。

当然，业界已有更高效的视频LLM训练方案（NVIDIA近期就发布了一篇相关的重要研究论文），但上述内容是理解苹果此次研究的核心背景，需重点关注。

正如苹果研究人员在其论文《SlowFast-LLaVA-1.5：用于长篇视频理解的一系列高效标记视频大型语言模型》中所阐述的：

视频大型语言模型（LLM）将视频感知能力集成到预训练LLM中，能够处理视频信息并针对用户指令生成响应。尽管该领域已取得显著进展，但现有视频LLM仍存在三大明显局限性：

现有模型往往过度依赖长上下文窗口与大量视频帧，不仅效率低下，还难以适配参数规模更小的模型；

多数模型需经过复杂的多阶段训练流程（且通常依赖私有数据集），导致训练过程难以复现；

许多模型仅针对视频任务进行优化，限制了其作为通用模型在图像理解领域的应用价值。

为解决这些痛点，苹果团队首先将目光投向开源模型SlowFast-LLaVA。该模型通过独特的双流架构融合空间与时间信息，已展现出出色的性能：其中“慢速流”以更高的细节精度处理较少的帧，用于捕捉场景中的核心内容；“快速流”则以较低的细节精度处理更多的帧，用于追踪事物随时间的运动轨迹。

在此基础上，苹果团队采取了两步优化策略：第一步，在图像数据上对SlowFast-LLaVA进行微调，构建起通用的视觉推理能力；第二步，利用公共数据集对模型进行图像与视频联合训练，确保模型在学习视频时间结构的同时，不牺牲原有的图像理解能力。

最终，SF-LLaVA-1.5应运而生。该模型系列包含10亿、30亿和70亿三种参数规模，研究人员指出，在一系列视频任务测试中，其性能甚至超越了参数规模更大的模型，部分场景下优势“极为显著”。

事实上，在LongVideoBench、MLVU等长视频基准测试中，苹果的SF-LLaVA-1.5模型在所有参数规模下均刷新了最佳成绩，即便是参数最小的10亿版本也不例外。

此外，该模型还成功克服了前文提及的三大局限性之一，并且在图像任务中同样表现出色，包括知识问答、数学推理、光学字符识别（OCR）以及富文本场景等基准测试，均取得了优异成果。

研究团队还尝试了多种视频压缩策略，但对比后发现，当前的模型设置在处理速度、分析准确性与令牌数量之间达到了最佳平衡。

对于SF-LLaVA-1.5，苹果研究人员将其最大输入帧长度设定为128帧。这意味着，无论分析的是几分钟还是几小时的长视频片段，模型始终仅处理最多128帧——其中快速流选取96个均匀间隔的帧，慢速流选取32个均匀间隔的帧。

针对这一设计，研究人员也客观指出：“这种方法可能会遗漏长视频中的部分关键帧，进而导致模型对视频播放速度的判断出现偏差。（……）SF-LLaVA-1.5的性能仍有提升空间，例如通过调整包括视觉编码器在内的所有参数来优化效果。然而，我们发现，对于长视频LLM而言，这并非易事，因为缓存激活值会带来高昂的GPU内存成本。未来的研究可探索集成内存节省技术，如随机神经网络（BP）等。”

尽管存在上述可优化方向，苹果的研究方案仍使SF-LLaVA-1.5成为该领域的先进模型，且具备一项额外优势——完全基于公共数据集训练，极大降低了应用门槛。目前，SF-LLaVA-1.5已在GitHub和HuggingFace平台开源，完整的研究论文也可在arXiv上查阅。

「DC网原创内容，转载请注明出处」

[ad_2]

苹果SF-LLaVA-1.5横空出世：128帧搞定长视频分析，多参数版本刷新基准测试纪录

您可能还喜欢...

近期文章

近期评论

苹果SF-LLaVA-1.5横空出世：128帧搞定长视频分析，多参数版本刷新基准测试纪录

您可能还喜欢...

《弗雷迪餐馆之夜：模仿者的秘密》确认将追加 VR 支持 – DC网

国风玄幻动画短剧《有山灵》定档8月23日上线，AI赋能开启奇幻之旅

Apple Vision Pro解锁新体验！Disney+《异形：地球》开放马其诺号“收容室”探索 – DC网-元宇宙&AI信息与产业服务

近期文章

近期评论