Record#
TODO#
- 补一个 token 数统计
- attn-llm 规律分析
- 看论文
2026-03-02#
2026-03-03#
给 attn-llm 热力图加了一个 token 边界以便区分
单个示例图如下:

规律特点统计:
-
早期层中音频 token 占据了相当高的注意力,随着 llm 层数加深,注意力逐渐分给部分视觉 token
-
在 llm 早期层中,后一时间块的 Vision token 和 前一时间块的 Audio token 相互注意
一些论文#
优于 Omnizip 表现的一篇论文,不是 training-free, 25 %

论文把 Omni-LLMs 的 token 压缩分为 3 类范式

-
模态解耦压缩:独立 V / A token 压缩
-
模态对称压缩: 视为同等信息进行压缩
-
模态非对称压缩(?其实就是一者引导吧。。。):本文先剪枝 V token,然后用 V 引导 A token 压缩
这篇论文提到了两篇我先前调研过的工作:Omnizip 和 EchoingPixels。Omnizip 没法用 Flash-attn,EchoingPixels 的话 引入额外开销(多余 LLM 解码层来做双向注意力)
两个核心模块:
-
STVP ( Spatio-Temporal Video Pruning ): 时间 + 空间冗余

-
VGAS ( Vision-Guided Audio Selector ): 用 V token 引导 A token 压缩

STVP:两阶段剪枝
空间冗余:
可能得看消融实验,感觉做法有点奇怪,直接平均池化作为基准的话如果相邻块差距本身较大。。。
帧内 token 平均池化作为全局平均向量,定义 token 的空间显著性为 该 token 与全局平均向量的余弦距离
时间冗余:
帧间对应 token 计算余弦距离
?没懂时空冗余之间怎么联合使用的,最后只提到用 选保留的 token 数 K,然后 topK 就行
VGAS:一个轻量化的交叉注意力,Q 是 A token, K,V 是剪枝后的视觉 token
交叉注意力得到带视觉信息的音频表示 , 通过一个 MLP(2)接一个 Sigmoid 进行投影得到显著性分数,同样 TopK 选 token,因为 TopK 不可微,用 STE 训练