Cosmo's Blog

Back

测试实验1#

Datasets#

考虑到 Qwen2.5-omni 对于显存的需求较大,基于 LongVALE 初始数据集,切割视频为 30s 内片段且保证包含时间,对于单个事件长度 > 30s 的片段,丢弃

  • 视频数目:1172 -> 5386(丢弃83个原始视频)
  • 事件数目:13867 -> 11612(丢弃2255个事件)

测试结果#

Grounding#

任务描述:输入事件,输出对应其时间戳

输入 TiT_i, 输出 (si,ei)(s_i, e_i)

  • mIoU :预测时间段与标注时间段的平均交并比,IoU = 交集长度 / 并集长度,通常以百分比显示;越大越好。
  • R1@0.3 / R1@0.5 / R1@0.7 :Top-1 召回率,在 IoU 分别≥0.3/0.5/0.7 的阈值下,预测的首个时间段命中比例;越大越好。
mIoUR1@0.3R1@0.5R1@0.7
LongVLAE46.3764.1645.4027.27
Qwen2.5-omni-3B16.8019.216.982.62

Caption#

任务描述:输入视频,输出视频中所有事件及其时间戳

  • soda_c :密集视频字幕评价中的覆盖/对齐类指标(SODA 家族中的 coverage 指标),衡量预测的事件字幕与其时间片段对标注的覆盖与对齐质量;越大越好。
  • METEOR :基于词形还原、同义词与片段匹配的文本质量指标;越大越好。
  • CIDEr :基于 TF-IDF 的共识度指标,衡量预测字幕与多参考字幕的一致性;越大越好。

输入 VRT×H×W×CV \in \mathbb{R}^{T \times H \times W \times C}, 输出 {si,ei,Ti}\{s_i, e_i, T_i\} all

soda_cMETEORCIDEr
LongVLAE5.374.913.80
Qwen2.5-omni-3B2.301.822.02

Seg_Captioning#

任务描述:输入时间片段(起始时间 sis_i 和结束时间 eie_i),输出对应时间片段中的事件

输入 (si,ei)(s_i, e_i), 输出 TiT_i

  • BLEU4 :4-gram 精确率的几何平均,关注 n-gram 重合度;越大越好。
  • Rouge :主要是召回型的 n-gram/最长公共子序列重合度(常见 ROUGE-L);越大越好。
BLEU4METEORRougeCIDEr
LongVLAE5.9511.5323.2925.00
Qwen2.5-omni-3B3.054.207.3410.44
测试实验1
https://astro-pure.js.org/blog/exp1
Author Cosmo
Published at November 25, 2025