[1]

T. Su and C. Hu, “ESVA: Enhancing Multimodal Emotion Recognition via Multi-Scale Audio Feature Extraction and Cross-Modal Temporal Alignment”, IJCAI, vol. 49, no. 31, Dec. 2025.