Publications - Yiran Qin

2025

CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion

Jiahua Ma*, Yiran Qin*^†, Yixiong Li, Xuanqi Liao, Yulan Guo, Ruimao Zhang^#(* equal contribution, ^# corresponding author, ^† project lead)

Conference on Robot Learning (CoRL) 2025

[Paper] [Project Page]

CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion

Jiahua Ma*, Yiran Qin*^†, Yixiong Li, Xuanqi Liao, Yulan Guo, Ruimao Zhang^#(* equal contribution, ^# corresponding author, ^† project lead)

Conference on Robot Learning (CoRL) 2025

[Paper] [Project Page]

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

Li Kang*, Xiufeng Song*, Heng Zhou*, Yiran Qin#, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai^#, Zhenfei Yin^#(* equal contribution, ^# corresponding author)

Annual Conference on Neural Information Processing Systems (NeurIPS) 2025

[Paper] [Project Page] [Code] [Dataset]

VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

Li Kang*, Xiufeng Song*, Heng Zhou*, Yiran Qin#, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai^#, Zhenfei Yin^#(* equal contribution, ^# corresponding author)

Annual Conference on Neural Information Processing Systems (NeurIPS) 2025

[Paper] [Project Page] [Code] [Dataset]

ReSo: A Reward-driven Self-organizing LLM-based Multi-Agent System for Reasoning Tasks

Heng Zhou*, Hejia Geng*, Xiangyuan Xue, Li Kang, Yiran Qin, Zhiyong Wang, Zhenfei Yin^#, Lei Bai^#(* equal contribution, ^# corresponding author)

EMNLP 2025 main

[Paper] [Code]

ReSo: A Reward-driven Self-organizing LLM-based Multi-Agent System for Reasoning Tasks

Heng Zhou*, Hejia Geng*, Xiangyuan Xue, Li Kang, Yiran Qin, Zhiyong Wang, Zhenfei Yin^#, Lei Bai^#(* equal contribution, ^# corresponding author)

EMNLP 2025 main

[Paper] [Code]

Towards robust evaluation of stem education: Leveraging mllms in project-based learning

Yanhao Jia, Xinyi Wu, Qinglin Zhang, Yiran Qin, Luwei Xiao, Shuai Zhao^#(^# corresponding author)

ArXiv Preprint

[Paper]

Towards robust evaluation of stem education: Leveraging mllms in project-based learning

Yanhao Jia, Xinyi Wu, Qinglin Zhang, Yiran Qin, Luwei Xiao, Shuai Zhao^#(^# corresponding author)

ArXiv Preprint

[Paper]

Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval

Jiwen Yu, Jianhong Bai, Yiran Qin, Quande Liu^#, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu^#(^# corresponding author)

SIGGRAPH Asia 2025

[Paper]

Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval

Jiwen Yu, Jianhong Bai, Yiran Qin, Quande Liu^#, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu^#(^# corresponding author)

SIGGRAPH Asia 2025

[Paper]

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

Yiran Qin*, Li Kang*, Xiufeng Song*, Zhenfei Yin^#, Xiaohong Liu, Xihui Liu, Ruimao Zhang^#, Lei Bai^#(* equal contribution, ^# corresponding author)

International Conference on Computer Vision (ICCV) 2025 Best Paper Award at CVPR 2025 MEIS Workshop

[Paper] [Project Page] [Code] [Dataset]

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

Yiran Qin*, Li Kang*, Xiufeng Song*, Zhenfei Yin^#, Xiaohong Liu, Xihui Liu, Ruimao Zhang^#, Lei Bai^#(* equal contribution, ^# corresponding author)

International Conference on Computer Vision (ICCV) 2025 Best Paper Award at CVPR 2025 MEIS Workshop

[Paper] [Project Page] [Code] [Dataset]

A Survey of Interactive Generative Video

Jiwen Yu*, Yiran Qin*, Haoxuan Che*, Quande Liu^#, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu^#(* equal contribution, ^# corresponding author)

ArXiv Preprint

[Paper]

A Survey of Interactive Generative Video

Jiwen Yu*, Yiran Qin*, Haoxuan Che*, Quande Liu^#, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu^#(* equal contribution, ^# corresponding author)

ArXiv Preprint

[Paper]

2024

GameFactory: Creating New Games with Generative Interactive Videos

Jiwen Yu*, Yiran Qin*, Xintao Wang^#, Pengfei Wan, Di Zhang, Xihui Liu^#(* equal contribution, ^# corresponding author)

International Conference on Computer Vision (ICCV) 2025 Highlight

[Paper] [Project Page] [Code] [Dataset]

GameFactory: Creating New Games with Generative Interactive Videos

Jiwen Yu*, Yiran Qin*, Xintao Wang^#, Pengfei Wan, Di Zhang, Xihui Liu^#(* equal contribution, ^# corresponding author)

International Conference on Computer Vision (ICCV) 2025 Highlight

[Paper] [Project Page] [Code] [Dataset]

Interactive Generative Video as Next-Generation Game Engine

Jiwen Yu*, Yiran Qin*, Haoxuan Che, Quande Liu, Xintao Wang^#, Pengfei Wan, Di Zhang, Xihui Liu^#(* equal contribution, ^# corresponding author)

ArXiv Preprint

[Paper]

Interactive Generative Video as Next-Generation Game Engine

Jiwen Yu*, Yiran Qin*, Haoxuan Che, Quande Liu, Xintao Wang^#, Pengfei Wan, Di Zhang, Xihui Liu^#(* equal contribution, ^# corresponding author)

ArXiv Preprint

[Paper]

WorldSimBench: Towards Video Generation Models as World Simulators

Yiran Qin*, Zhelun Shi*, Jiwen Yu, Xijun Wang, Enshen Zhou, Lijun Li, Zhenfei Yin, Xihui Liu, Lu Sheng, Jing Shao^#, Lei Bai^#, Ruimao Zhang^#(* equal contribution, ^# corresponding author)

International Conference on Machine Learning (ICML) 2025 Oral at CVPR 2025 WorldModelBench Workshop

[Paper] [Project Page]

WorldSimBench: Towards Video Generation Models as World Simulators

Yiran Qin*, Zhelun Shi*, Jiwen Yu, Xijun Wang, Enshen Zhou, Lijun Li, Zhenfei Yin, Xihui Liu, Lu Sheng, Jing Shao^#, Lei Bai^#, Ruimao Zhang^#(* equal contribution, ^# corresponding author)

International Conference on Machine Learning (ICML) 2025 Oral at CVPR 2025 WorldModelBench Workshop

[Paper] [Project Page]

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation

Lijun Li*, Zhelun Shi*, Xuhao Hu, Bowen Dong, Yiran Qin, Xihui Liu, Lu Sheng, Jing Shao^#(* equal contribution, ^# corresponding author)

Conference on Computer Vision and Pattern Recognition (CVPR) 2025

[Paper] [Code]

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation

Lijun Li*, Zhelun Shi*, Xuhao Hu, Bowen Dong, Yiran Qin, Xihui Liu, Lu Sheng, Jing Shao^#(* equal contribution, ^# corresponding author)

Conference on Computer Vision and Pattern Recognition (CVPR) 2025

[Paper] [Code]

High-Dynamic Radar Sequence Prediction for Weather Nowcasting Using Spatiotemporal Coherent Gaussian Representation

Ziye Wang, Yiran Qin, Lin Zeng, Ruimao Zhang^#(^# corresponding author)

International Conference on Learning Representations (ICLR) 2025 Oral

[Paper] [Project Page] [Code]

High-Dynamic Radar Sequence Prediction for Weather Nowcasting Using Spatiotemporal Coherent Gaussian Representation

Ziye Wang, Yiran Qin, Lin Zeng, Ruimao Zhang^#(^# corresponding author)

International Conference on Learning Representations (ICLR) 2025 Oral

[Paper] [Project Page] [Code]

NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants

Yiran Qin*, Ao Sun*, Yuze Hong, Benyou Wang, Ruimao Zhang^#(* equal contribution, ^# corresponding author)

International Conference on Robotics and Automation (ICRA) 2025

[Paper] [Project Page]

NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants

Yiran Qin*, Ao Sun*, Yuze Hong, Benyou Wang, Ruimao Zhang^#(* equal contribution, ^# corresponding author)

International Conference on Robotics and Automation (ICRA) 2025

[Paper] [Project Page]

Minedreamer: Learning to follow instructions via chain-of-imagination for simulated-world control

Enshen Zhou*, Yiran Qin*, Zhenfei Yin^†, Yuzhou Huang, Ruimao Zhang^#, Lu Sheng^#, Yu Qiao, Jing Shao(* equal contribution, ^# corresponding author, ^† project lead)

International Conference on Intelligent Robots and Systems (IROS) 2025

[Paper] [Project Page] [Code]

Minedreamer: Learning to follow instructions via chain-of-imagination for simulated-world control

Enshen Zhou*, Yiran Qin*, Zhenfei Yin^†, Yuzhou Huang, Ruimao Zhang^#, Lu Sheng^#, Yu Qiao, Jing Shao(* equal contribution, ^# corresponding author, ^† project lead)

International Conference on Intelligent Robots and Systems (IROS) 2025

[Paper] [Project Page] [Code]

Story3d-agent: Exploring 3d storytelling visualization with large language models

Yuzhou Huang, Yiran Qin, Shunlin Lu, Xintao Wang^#, Rui Huang, Ying Shan, Ruimao Zhang^#(^# corresponding author)

ArXiv Preprint

[Paper] [Project Page] [Code]

Story3d-agent: Exploring 3d storytelling visualization with large language models

Yuzhou Huang, Yiran Qin, Shunlin Lu, Xintao Wang^#, Rui Huang, Ying Shan, Ruimao Zhang^#(^# corresponding author)

ArXiv Preprint

[Paper] [Project Page] [Code]

2023

Mp5: A multi-modal open-ended embodied system in minecraft via active perception

Yiran Qin*, Enshen Zhou*, Qichang Liu*, Zhenfei Yin, Lu Sheng^#, Ruimao Zhang^#, Yu Qiao, Jing Shao^†(* equal contribution, ^# corresponding author, ^† project lead)

Conference on Computer Vision and Pattern Recognition (CVPR) 2024

[Paper] [Project Page] [Code] [Dataset] [Video]

Mp5: A multi-modal open-ended embodied system in minecraft via active perception

Yiran Qin*, Enshen Zhou*, Qichang Liu*, Zhenfei Yin, Lu Sheng^#, Ruimao Zhang^#, Yu Qiao, Jing Shao^†(* equal contribution, ^# corresponding author, ^† project lead)

Conference on Computer Vision and Pattern Recognition (CVPR) 2024

[Paper] [Project Page] [Code] [Dataset] [Video]

Toward Accurate Camera-based 3D Object Detection via Cascade Depth Estimation and Calibration

Chaoqun Wang*, Yiran Qin*, Zijian Kang, Ningning Ma, Ruimao Zhang(* equal contribution)

International Conference on Robotics and Automation (ICRA) 2024

[Paper]

Toward Accurate Camera-based 3D Object Detection via Cascade Depth Estimation and Calibration

Chaoqun Wang*, Yiran Qin*, Zijian Kang, Ningning Ma, Ruimao Zhang(* equal contribution)

International Conference on Robotics and Automation (ICRA) 2024

[Paper]

Boosting 3D Object Detection via Self-Distilling Introspective Data

Chaoqun Wang, Yiran Qin, Zijian Kang, Ningning Ma, Yukai Shi, Zhen Li, Ruimao Zhang^#(^# corresponding author)

IEEE Transactions on Intelligent Transportation Systems (TITS)

[Paper]

Boosting 3D Object Detection via Self-Distilling Introspective Data

Chaoqun Wang, Yiran Qin, Zijian Kang, Ningning Ma, Yukai Shi, Zhen Li, Ruimao Zhang^#(^# corresponding author)

IEEE Transactions on Intelligent Transportation Systems (TITS)

[Paper]

SupFusion: Supervised LiDAR-camera fusion for 3D object detection

Yiran Qin*, Chaoqun Wang*, Zijian Kang, Ningning Ma, Zhen Li, Ruimao Zhang^#(* equal contribution, ^# corresponding author)

International Conference on Computer Vision (ICCV) 2023

[Paper] [Code]

SupFusion: Supervised LiDAR-camera fusion for 3D object detection

Yiran Qin*, Chaoqun Wang*, Zijian Kang, Ningning Ma, Zhen Li, Ruimao Zhang^#(* equal contribution, ^# corresponding author)

International Conference on Computer Vision (ICCV) 2023

[Paper] [Code]