中国科研团队突破性发布:VideoChat-Flash技术引领长视频处理速度飙升百倍
尹林竹
•
2025-01-21 16:20:09
摘要 传统视频理解模型在长视频处理上遭遇复杂上下文理解及训练推理效率低等挑战。研究团队通过HiCo技术,层次化压缩视频,分割长视频为短片段,...
传统视频理解模型在长视频处理上遭遇复杂上下文理解及训练推理效率低等挑战。研究团队通过HiCo技术,层次化压缩视频,分割长视频为短片段,显著降低计算需求并保留关键信息,同时增强模型处理能力。
“VideoChat-Flash”采用多阶段短视频到长视频的学习方案,通过构建包含300,000小时视频和2亿字注释的庞大数据集,提高了模型视觉感知能力。实验显示,该方法在计算上大幅减少,成为短视频理解领域新标杆,并在长视频理解方面超越现有开源模型,展现出卓越的时间定位能力。
版权声明:本文由用户上传,如有侵权请联系删除!
标签: