Su, Tong, and Cuihua Hu. “ESVA: Enhancing Multimodal Emotion Recognition via Multi-Scale Audio Feature Extraction and Cross-Modal Temporal Alignment”. Informatica, vol. 49, no. 31, Dec. 2025, doi:10.31449/inf.v46i31.12043.