Zhongyu Yang

Research Scientist @ ModelBest
Omni-Video Understanding · Multimodal Reasoning
yangzhy21 (at) gmail.com

About Me

I am a Research Scientist at ModelBest, where I work on omni foundation models for video, audio, and language understanding. Previously, I was a research intern at Tencent Hunyuan (Qingyun Top Talent Program), where my research centered on omni-video understanding — jointly interpreting a video together with its accompanying audio and language (e.g., Script-a-Video, deep structured audio-visual captioning). I was also a remote research intern at Vision-CAIR, KAUST, advised by Mohamed Elhoseiny, and a research intern at SenseTime. I received my B.S. in Mathematics (minor in Management) from Lanzhou University.

My research seeks to advance multimodal models from surface-level recognition toward genuine understanding — reasoning about why events occur and what follows, with inferences grounded in evidence that is consistent across modalities and over time. My work spans four interconnected directions:

Research Interests

Omni-Video Understanding: long-form, audio-visual, and tool-augmented video comprehension that integrates vision, audio, and language over time (SVAgent_CVPR, ParaVT_Tech Report, Script‑a‑Video_Tech Report)
Compositional Multimodal Reasoning: evaluating and strengthening how models exploit cross-modal evidence when reasoning over evolving world states (UFO_ICML, InEx_AAAI, MERMAID_EMNLP, XR_WWW)
Generative Modeling as Evidence: leveraging generated images, sequences, and future states as intermediate evidence for understanding and prediction (WikiAutoGen_ICCV, ReChar_{SIGGRAPH Asia}, Evolving Visual Generation_Tech Report, CHAT_ECCV)
Efficient & Trustworthy Models: token compression and safety-oriented mechanisms that keep large multimodal and language models scalable and reliable (Script_TMLR, SCOPE_KDD)

In the long term, I aim to develop general-purpose multimodal systems that perceive, reason, and communicate across vision, audio, language, and action in dynamic, real-world environments.

I warmly welcome research collaborations and discussions on omni foundation models, multimodal reasoning, and audio-visual understanding — please feel free to reach out.

News

Experience

Research Scientist, Omni Foundation Model, ModelBest (面壁智能) Jul. 2026 – Present
Research Intern, Tencent Qingyun Top Talent Program, Hunyuan, Tencent Mar. 2026 – Jul. 2026
Research Intern, General Perceptual Computing Group, SenseTime Feb. 2025 – Feb. 2026
Remote Research Intern, BCML Lab, Heriot-Watt University Mar. 2024 – Present
Remote Research Intern at Vision-CAIR, KAUST Dec. 2024 – Jan 2026
Research Assistant at LIAS Lab, CUHK (Shenzhen) Apr. 2024 – Nov. 2024
Data Analysis Assistant, iFLYTEK Jun. 2023 – Aug. 2023

Selected Publications [Google Scholar]

Publication Statistics: CCF A: 9| CCF B: 3| TMLR: 1| JCR Q1: 2 ✓ Total: 15

† Equal contribution * Corresponding author

All

MLLM

Generative

Agentic

Video

AI4Science

ICML 2026

UFO: A Benchmark for Compositional Multimodal Reasoning in Unified Models — Do Vision and Text Cues Exhibit Evidential Coupling?

Zhongyu Yang, Dannong Xu, Yonghan Zhang, Kefan Chen, Xinyi Wang, Yang Xu, Wei Pang, Yingfang Yuan

ICML 2026

Project Page PDF Code
CVPR 2026

SVAgent: Storyline-guided Long Video Understanding via Cross-modal Multi-agent Collaboration.

Zhongyu Yang, Zuhao Yang, Shuo Zhan, Yue Tan, Wei Pang, Yingfang Yuan

CVPR 2026

PDF
ECCV 2026

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents.

Dannong Xu†, Zhongyu Yang†, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng

ECCV 2026

Project Page PDF Data
KDD 2026

SCOPE: Streaming Covariance-Orthogonal Patching for Efficient LLM Safety Governance.

Yizhe Yang, Xuanming Jiang, Jisheng Dang, Aoying Wang, Baoyi An, Hao Wu, Guoshuai Zhao, Bimei Wang, Hong Peng, Bin Hu, Zhongyu Yang*

KDD 2026

PDF
WWW 2026

XR: Cross-Modal Agents for Composed Image Retrieval.

Zhongyu Yang, Wei Pang, Yingfang Yuan

WWW 2026

Project Page PDF Code
ICCV 2025

WikiAutoGen: Towards Multi-Modal Wikipedia-Style Article Generation

Zhongyu Yang†, Jun Chen†, Dannong Xu, Junjie Fei, Xiaoqian Shen, Liangbing Zhao, Chun-Mei Feng, Mohamed Elhoseiny

ICCV 2025, Hugging Face Daily Papers

Project Page PDF Code
AAAI 2026

InEx: Hallucination Mitigation via Introspection and Cross-Modal Multi-Agent Collaboration.

Zhongyu Yang, Yingfang Yuan, Xuanming Jiang, Baoyi An, Wei Pang

AAAI 2026

Project Page PDF
TMLR 2025

Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models

Zhongyu Yang†, Dannong Xu†, Wei Pang, Yingfang Yuan

TMLR 2025

Project Page PDF Code
EMNLP 2025

MERMAID: Multi-perspective Self-reflective Agents with Generative Augmentation for Emotion Recognition.

Zhongyu Yang, Junhao Song, Siyang Song, Wei Pang, Yingfang Yuan

EMNLP 2025

Project Page PDF
ECCV 2026

CHAT: Conversational Human Audio-visual Talking Dialogue Generation

Junhao Song, Lluis Guasch, Xilin He, Zhongyu Yang, Yingfang Yuan, Weicheng Xie, Linlin Shen, Lu Liu, Wei Pang, Siyang Song

ECCV 2026

PDF
Tech Report

ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

Zuhao Yang, Kaichen Zhang, Sudong Wang, Keming Wu, Zhongyu Yang, Bo Li, Xiaojuan Qi, Shijian Lu, Xingxuan Li, Lidong Bing

Tech Report

Project Page PDF Code Data
Tech Report

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Keming Wu, Zuhao Yang, Kaichen Zhang, Shizun Wang, Haowei Zhu, Sicong Leng, Zhongyu Yang, Qijie Wang, Sudong Wang, Ziting Wang, et al.

Tech Report

Project Page PDF Code
Tech Report

Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding

Tencent Hunyuan Team (including Zhongyu Yang)

Tech Report

PDF
SIGGRAPH Asia 2025

ReChar: Revitalising Characters with Structure Preserved and User-Specified Aesthetic Enhancements.

Zhongyu Yang, Junhao Song, Zhang Luo, Zuhao Yang, Yang Xu, Jingfen Lan, Yonghan Zhang, Wei Pang, Siyang Song, Yingfang Yuan

SIGGRAPH Asia 2025

Project Page PDF Code
ACL 2026

EmoRes: Toward Adaptive Psychological Support via User-Agnostic Benchmark and Topic-Mining Agent

Zhengwei Zou, Xuanming Jiang, Baoyi An, Dingyu Nie, Zhengxing Fang, Qingyu Liu, Xueming Qian, Guoshuai Zhao, Zhongyu Yang*

ACL 2026

PDF
CVPR 2026

MeteoNet: Next-Generation Efficient Reliable Reconstruction Solution for Full-Scale Non-Uniform Meteorological Fields.

Xuanming Jiang, Baoyi An, Dingyu Nie, Haoyu Ren, Zhengwei Zou, Yizhe Yang, Jialie Shen, Zhiwen Jin, Xueming Qian, Zhongyu Yang*, Guoshuai Zhao.

CVPR 2026

PDF
Tech Report

Tropical Representations of Chinese Monoids with and without Involutio.n

Zhongyu Yang, Hao Wu

Technology Report

PDF
Renewable Energy

Toward enhancing environmental quality in OECD countries: Role of municipal waste, renewable energy, environmental innovation, and environmental policy.

Mengying Su, Zhongyu Yang*, Shujaat Abbas, Yuriy Bilan, Agnieszka Majewska

Renewable Energy (SCI Q1 TOP, IF = 9.0)

PDF
FRL

Green effect of energy transition policy: A quasi-natural Experiment Based on New Energy Demonstration Cities.

Zhichao Yu, Wenlan Xie, Junjie Guo, Zhongyu Yang*

Finance Research Letters (SSCI Q1 TOP, 1/111, IF = 10.4)

PDF

↓ scroll to see more publications

Services

Conference Reviewers

CVPR, ECCV, ICCV, ICLR, NeurIPS, ICML, ACL, EMNLP, AAAI, SIGGRAPH Asia, WWW, KDD

Journal Reviewers

IJCV, CVIU, TMM, TIP

Powered by Jekyll and Minimal Light theme.