- Whisper 论文阅读
Robust Speech Recognition via Large-Scale Weak Supervision——论文研读
7 min 中文 - Transformer 论文阅读
Attention Is All You Need——论文精读(详解)
10 min 中文 - LongVALE 论文阅读
LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos——论文研读
2 min 中文 - VTimeLLM 论文阅读
VTimeLLM: Empower LLM to Grasp Video Moments——论文研读
6 min 中文 - 一些学习记录
学习中看到的很有趣的说法
5 min 中文 - AVSegFormer 论文阅读
AVSegFormer: Audio-Visual Segmentation with Transformer——论文研读
9 min 中文 - Ngrok 使用记录
用 ngrok 暴露本机端口至公网以提供简单的开发服务
3 min 中文 - VCT_AVS 论文阅读
Revisiting Audio-Visual Segmentation with Vision-Centric Transformer——论文研读
17 min 中文
Back