Cosmo's Blog

Back

记录内容#

2025-11-6#

  • TODO
    • Whisper
    • Transformer
    • Qwen3-omni Aut 代码
    • LongVLAE infer 评估
    • Owen2.5-omni 拿来测试(datasets 重构 / Whisper Lora 数据读取 / HuggingFace 上找类似的 )

2025-11-13#

2025-11-20#

  • Discussion - This week

    • Owen2.5-omni 测试
    • Datasets 封装
  • TODO

    • Owen2.5-omni/VL 视频处理模块查看(以及一些论文)
    • Valor32k 及新数据集调研
    • LongVLAE 在新分割的数据集上评估

2025-11-27#

2025-12-04#

  • Discussion - This week

    • vllm 加速 qwen2.5 / flash attention
  • TODO

    • vit Lora 测试
    • 魔改 Qwen2.5-omni 视频处理模块,跑通前传和 proposal 部分

2025-12-17#

  • Discussion - This week

    • vit Lora 测试
    • 魔改 Qwen2.5-omni 视频处理模块,跑通前传和 proposal 部分
  • TODO

    • loss 计算部分
    • Qwen2.5-omni tokenizer 部分 audio
    • qwen lora

2025-12-24#

  • Discussion - This week

    • qwen lora
    • 魔改 Qwen2.5-omni 视频处理模块,跑通前传和 proposal 部分
    • CE loss,训练加速的一些东西
    • 关于创新点的疑问
  • TODO

    • 提供baseline中调整合理性的佐证
    • 整理长视频理解和音视频理解的论文及其方法

2025-12-31 + 2026-01-08#

  • Discussion - This week

    • baseline中调整合理性的佐证
    • 整理长视频理解中音视频token压缩的论文及其方法
    • 关于这篇论文EchoingPixels: 这个论文和我目前想做的方法很像,创新:联合多模态压缩还有位置编码的变动
  • TODO

    • EchoingPixels 中多模态联合压缩的尝试
    • [ ]
工作记录文档
https://astro-pure.js.org/blog/online-doc
Author Cosmo
Published at November 10, 2025