记录内容#
2025-11-6#
- TODO
- Whisper
- Transformer
- Qwen3-omni Aut 代码
- LongVLAE infer 评估
- Owen2.5-omni 拿来测试(datasets 重构 / Whisper Lora 数据读取 / HuggingFace 上找类似的 )
2025-11-13#
-
Discussion - This week
- LongVLAE 评估结果
- Transformer 论文精读
- Whisper 论文阅读
- Qwen3-omni Aut 实现代码()
-
TODO
- Owen2.5-omni 拿来测试(datasets 重构 / Whisper Lora 数据读取 / HuggingFace 上找类似的 )
- Datasets 封装
2025-11-20#
-
Discussion - This week
- Owen2.5-omni 测试
- Datasets 封装
-
TODO
- Owen2.5-omni/VL 视频处理模块查看(以及一些论文)
- Valor32k 及新数据集调研
- LongVLAE 在新分割的数据集上评估
2025-11-27#
-
Discussion - This week
-
TODO
- vllm 加速 / slow_fast 选帧 / qwen2.5
- 多声源
-
任务细化
- vllm 加速 qwen2.5 / flash attention
- 看论文 slow_fast 选帧实现
2025-12-04#
-
Discussion - This week
- vllm 加速 qwen2.5 / flash attention
-
TODO
- vit Lora 测试
- 魔改 Qwen2.5-omni 视频处理模块,跑通前传和 proposal 部分
2025-12-17#
-
Discussion - This week
- vit Lora 测试
- 魔改 Qwen2.5-omni 视频处理模块,跑通前传和 proposal 部分
-
TODO
- loss 计算部分
- Qwen2.5-omni tokenizer 部分 audio
- qwen lora
2025-12-24#
-
Discussion - This week
- qwen lora
- 魔改 Qwen2.5-omni 视频处理模块,跑通前传和 proposal 部分
- CE loss,训练加速的一些东西
- 关于创新点的疑问
-
TODO
- 提供baseline中调整合理性的佐证
- 整理长视频理解和音视频理解的论文及其方法
2025-12-31 + 2026-01-08#
-
Discussion - This week
- baseline中调整合理性的佐证
- 整理长视频理解中音视频token压缩的论文及其方法
- 关于这篇论文EchoingPixels ↗: 这个论文和我目前想做的方法很像,创新:联合多模态压缩还有位置编码的变动
-
TODO
- EchoingPixels 中多模态联合压缩的尝试
- [ ]