Blog Projects Links About TODO

Back

Nov 10, 2025

/ Update Jan 14, 2026

3 min

中文

工作记录文档

记录每周的工作内容

记录内容#

2025-11-6#

TODO
- Whisper
- Transformer
- Qwen3-omni Aut 代码
- LongVLAE infer 评估
- Owen2.5-omni 拿来测试（datasets 重构 / Whisper Lora 数据读取 / HuggingFace 上找类似的）

2025-11-13#

Discussion - This week
- LongVLAE 评估结果
- Transformer 论文精读
- Whisper 论文阅读
- Qwen3-omni Aut 实现代码（）
TODO
- Owen2.5-omni 拿来测试（datasets 重构 / Whisper Lora 数据读取 / HuggingFace 上找类似的）
- Datasets 封装

2025-11-20#

Discussion - This week
- Owen2.5-omni 测试
- Datasets 封装
TODO
- Owen2.5-omni/VL 视频处理模块查看（以及一些论文）
- Valor32k 及新数据集调研
- LongVLAE 在新分割的数据集上评估

2025-11-27#

Discussion - This week
- Owen2.5-omni/VL 视频处理模块分析
- LongVLAE 在新分割的数据集上与 Qwen2.5-omni-3B 的评估对比
TODO
- vllm 加速 / slow_fast 选帧 / qwen2.5
- 多声源
任务细化
- vllm 加速 qwen2.5 / flash attention
- 看论文 slow_fast 选帧实现

2025-12-04#

Discussion - This week
- vllm 加速 qwen2.5 / flash attention
TODO
- vit Lora 测试
- 魔改 Qwen2.5-omni 视频处理模块，跑通前传和 proposal 部分

2025-12-17#

Discussion - This week
- vit Lora 测试
- 魔改 Qwen2.5-omni 视频处理模块，跑通前传和 proposal 部分
TODO
- loss 计算部分
- Qwen2.5-omni tokenizer 部分 audio
- qwen lora

2025-12-24#

Discussion - This week
- qwen lora
- 魔改 Qwen2.5-omni 视频处理模块，跑通前传和 proposal 部分
- CE loss，训练加速的一些东西
- 关于创新点的疑问
TODO
- 提供baseline中调整合理性的佐证
- 整理长视频理解和音视频理解的论文及其方法

2025-12-31 + 2026-01-08#

Discussion - This week
- baseline中调整合理性的佐证
- 整理长视频理解中音视频token压缩的论文及其方法
- 关于这篇论文EchoingPixels ↗: 这个论文和我目前想做的方法很像，创新：联合多模态压缩还有位置编码的变动
TODO
- infer only token 压缩调研

2026-1-14#

Discussion - This week
- baseline中调整合理性的佐证 - 一致性重测
- infer only token 压缩调研
- 关于后续工作方向调整的问题，baseline 训练得到的 loss 曲线很差
TODO
- layer1 attn (AVT)
- lossy FFT / Audio compress
- h264 关键帧 vs deltas
- 汇总表格

工作记录文档

https://astro-pure.js.org/blog/online-doc

Author Cosmo

Published at November 10, 2025

Copyright CC BY-NC-SA 4.0

Buy me a cup of coffee ☕.

infer only 探索

baseline 支持