Su, T., & Hu, C. (2025). ESVA: Enhancing Multimodal Emotion Recognition via Multi-Scale Audio Feature Extraction and Cross-Modal Temporal Alignment. Informatica, 49(31). https://doi.org/10.31449/inf.v46i31.12043