(1)

Su, T.; Hu, C. ESVA: Enhancing Multimodal Emotion Recognition via Multi-Scale Audio Feature Extraction and Cross-Modal Temporal Alignment. IJCAI 2025, 49.