Xinyu Wei (魏心宇)

Hi, I'm a PhD candidate at VCLab, HKPU, supervised by Prof. John Lei ZHANG (Chair Professor, IEEE Fellow)

📌 I study Multimodal AI, zooming in on the Fine-Grained Problems that make models truly understand
(🔍 Fine-Grained Understanding) and create (🎨 Fine-Grained Generation).

🤩 Feel free to reach out for any academic collaborations!

FunFact

NerdNet · AI Project Bootcamp

My co-founder and I run an AI bootcamp for zero-experience students, with 4M+ RMB net profit for three consecutive years. We offer a complete ecosystem: recorded lectures, hands-on case studies, course materials, and a demo platform. We are seeking scaling partnerships—reach out to discuss.

✉️ allen.wei@connect.polyu.hk · 🎓 Google Scholar

I trained a Model that can...

News

[2026.06] Two papers accepted by ECCV 2026 🎉
[2026.06] 🔥🔥🔥LocateAnything surpassed 100K+ Hugging Face downloads within one week of release and ! Have a try!
[2026.02] One paper accepted by CVPR 2026 🎉
[2025.09] Two papers accepted by NeurIPS 2025 🎉
[2025.06] I graduated from Peking University 🎉
[2025.01] Three papers accepted by ICLR 2025 🎉
[2024.03] One paper accepted by CVPR 2024 🎉, One paper accepted by CVPR Workshop 💪

Education

[2022-2025] M.S. in Software Engineering as Merit Student 🎉, Peking University, Supervised by Prof. Shanghang Zhang
[2018-2022] B.E. in Computer Science with Distinction 🎉, Wuhan University

🔍 Fine-Grained Understanding

As (Co)First-Author

PAM: Perceive Anything - Recognize, Explain, Caption, and Segment Anything in Images and Videos

Weifeng Lin*, Xinyu Wei*, Ruichuan An*, Tianhe Ren, Tingwei Chen, Renrui Zhang, Ziyu Guo, Wentao Zhang, Lei Zhang, Hongsheng Li

Region-level fine-grained understanding with arbitrary kind of visual prompts: segment, recognize, explain, and caption in images and videos.

✅ NeurIPS 2025

[Paper] [Project Page] [Code 🌟279]
MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine

Renrui Zhang*, Xinyu Wei*, Dongzhi Jiang, Ziyu Guo, Shicheng Li, Yichi Zhang, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Chunyuan Li, Hongsheng Li

The first specialized VLM for multimodal math problem-solving (CLIP-Math + CoT SFT + DPO), with automatic focus on key regions in mathematical figures.

✅ ICLR 2025

[Paper]
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want

Weifeng Lin*, Xinyu Wei*, Ruichuan An*, Peng Gao, Bocheng Zou, Yulin Luo, Siyuan Huang, Shanghang Zhang, Hongsheng Li

Enabling MLLMs to interpret visual prompts (points, boxes, shapes) for fine-grained image comprehension.

✅ ICLR 2025

[Paper] [Project Page] [Code 🌟96]

🎨 Fine-Grained Generation

As (Co)First-Author

MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition

Xinyu Wei*, Kangrui Cen*, Hongyang Wei, Zhen Guo, Bairui Li, Zeqing Wang, Jinrui Zhang, Lei Zhang

Id-consistent multi-reference image generation demanding fine-grained reference understanding: a dataset, benchmark, and strong baseline model Qwen-MICo.

✅ CVPR 2026

[Paper] [Project Page] [Code 🌟105]
TIIF-Bench: How Does Your T2I Model Follow Your Instructions?

Xinyu Wei, Jinrui Zhang, Zeqing Wang, Hongyang Wei, Zhen Guo, Lei Zhang

Benchmark to systematically assess modern T2I models' ability in following intricate textual instructions.

✅ ECCV 2026

[Paper] [Project Page] [Code 🌟128]
VideoVerse: How Far is Your T2V Generator from a World Model?

Zeqing Wang*, Xinyu Wei*, Bairui Li, Zhen Guo, Jinrui Zhang, Hongyang Wei, Keze Wang, Lei Zhang

Benchmark evaluating modern T2V models on temporal causality and world knowledge.

Under Review

[Paper] [Project Page] [Code 🌟15]
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

Weifeng Lin*, Xinyu Wei*, Renrui Zhang*, Le Zhuo, Shitian Zhao, Siyuan Huang, Huan Teng, Junlin Xie, Yu Qiao, Peng Gao, Hongsheng Li

Unified image-to-image assistant for generation, manipulation, and translation via free-form language instructions.

✅ ICLR 2025

[Paper] [Code 🌟210]

Other Publications

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu

Fast and high-quality vision-language grounding with Parallel Box Decoding and large-scale LocateAnything-Data.

✅ ECCV 2026

[Paper] [Demo]
GENIUS: Generative Fluid Intelligence Evaluation Suite

Ruichuan An, Sihan Yang, Ziyu Guo, Wei Dai, Zijun Shen, Haodong Li, Renrui Zhang, Xinyu Wei, Guopeng Li, Wenshan Wu, Wentao Zhang

Benchmark for evaluating generative fluid intelligence: inducing patterns, executing constraints, and adapting to novel scenarios.

Under Review

[Paper]
UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing

Hongyang Wei, Bin Wen, Yancheng Long, Yankai Yang, Yuhang Hu, Tianke Zhang, Wei Chen, Haonan Fan, Kaiyu Jiang, Jiankang Chen, Changyi Liu, Kaiyu Tang, Haojie Ding, Xiao Yang, Jia Sun, Huaiqing Wang, Zhenyu Yang, Xinyu Wei, Xianglong He, Yangguang Li, Fan Yang, Tingting Gao, Lei Zhang, Guorui Zhou, Han Li

Unified framework for single-image editing and multi-image composition with scalable and consistent multi-reference inputs.

Under Review

[Paper]
Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

Chengzhuo Tong, Ziyu Guo, Renrui Zhang, Wenyu Shan, Xinyu Wei, Zhenghao Xing, Hongsheng Li, Pheng-Ann Heng

First comprehensive study of DPO vs. GRPO in autoregressive image generation with CoT reasoning.

✅ NeurIPS 2025

[Paper] [Code 🌟863]
Cloud-Device Collaborative Learning for Multimodal Large Language Models

Guanqun Wang, Jiaming Liu, Chenxuan Li, Junpeng Ma, Yuan Zhang, Xinyu Wei, Kevin Zhang, Maurice Chong, Ray Zhang, Yijiang Liu, Shanghang Zhang

Enhancing compressed device-deployed MLLMs via cloud collaboration and adapter-based knowledge distillation.

✅ CVPR 2024

[Paper]
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models

Siying Cui, Jia Guo, Xiang An, Jiankang Deng, Yongle Zhao, Xinyu Wei, Ziyong Feng

Tuning-free personalization for text-to-image models from a single face image with identity preservation.

✅ CVPR 2024 Workshop

[Paper]

Hobbies

Photography 📸, Body Building 💪, Movie 🎬, Basketball 🏀, Video Games 🎮

I read history and philosophy

I travel all around the world 🌏

Service

Reviewer for ICLR, CVPR, ECCV, NeurIPS
Cluster & API Quota Administrator, VCLab

Last updated: June 2026

Xinyu Wei (魏 心宇)