Su T, Hu C. ESVA: Enhancing Multimodal Emotion Recognition via Multi-Scale Audio Feature Extraction and Cross-Modal Temporal Alignment. IJCAI [Internet]. 2025 Dec. 23 [cited 2026 May 31];49(31). Available from: https://www.informatica.si/index.php/informatica/article/view/12043