ESVA: Enhancing Multimodal Emotion Recognition via Multi-Scale Audio Feature Extraction and Cross-Modal Temporal Alignment. IJCAI. 2025;49(31). doi:10.31449/inf.v46i31.12043