近来,智源智源研究院联合上海交通大学等组织正式发布了一款新一代超长视频了解模型——Video-XL-2。研究院开源轻这一模型的量级推出标志着长视频了解技能在开源范畴取得了重大突破 ,为多模态大模型在长视频内容了解方面的超长开展注入了新的生机 。
在技能架构方面 ,视频Video-XL-2首要由视觉编码器、解模动态Token组成模块(DTS)以及大言语模型(LLM)三个中心组件构成。智源该模型选用SigLIP-SO400M作为视觉编码器 ,研究院开源轻对输入视频进行逐帧处理,量级将每一帧编码为高维视觉特征。超长随后,视频DTS模块对这些视觉特征进行交融紧缩 ,解模并建模其时序联系,智源以提取更具语义的研究院开源轻动态信息。处理后的量级视觉表征经过均匀池化与多层感知机(MLP)进一步映射到文本嵌入空间 ,完结模态对齐 。终究 ,对齐后的视觉信息输入至Qwen2.5-Instruct ,以完结对视觉内容的了解与推理 ,并完结相应的下流使命。
在练习战略上,Video-XL-2选用了四阶段渐进式练习的规划 ,逐渐构建其强壮的长视频了解能力。前两个阶段首要运用图画/视频-文本对,完结DTS模块的初始化与跨模态对齐;第三阶段则引进更大规划、更高质量的图画与视频描绘数据,开始奠定模型对视觉内容的了解能力;第四阶段 ,在大规划、高质量且多样化的图画与视频指令数据上进行微调,使Video-XL-2的视觉了解能力得到进一步提高与强化,然后能够更精确地了解和呼应杂乱的视觉指令。
此外,Video-XL-2还系统性规划了功率优化战略 。它引进了分段式的预装填战略(Chunk-based Prefilling),将超长视频划分为若干接连的片段(chunk),在每个chunk内部运用稠密注意力机制进行编码,而不同chunk之间则经过时刻戳传递上下文信息,显着降低了预装填阶段的计算成本与显存开支 。一起 ,Video-XL-2还规划了依据双粒度KV的解码机制(Bi-granularity KV Decoding),在推理过程中,模型会依据使命需求