同济大学工程智能研究院长聘特聘教授、博士生导师。于哥伦比亚大学计算机科学专业获得博士学位。
曾任微软研究院、微软搜索与人工智能事业部(美国总部)首席研究员和首席架构师;微软人工智能亚太区首席应用科学家,生成式人工智能部门负责人。
长期研究目标是构建可扩展的、知识丰富的人工智能系统,使其能够在多模态的真实世界环境中感知、推理和行动。当前研究聚焦于自主AI智能体系统——智能系统的下一代范式。主要方向包括:多智能体进化与协作,使专业化智能体团队能够通过交互进行协调、适应和提升;智能体记忆与知识库构建,设计智能体动态获取、组织、检索和遗忘知识的机制;可靠高效的智能体推理,确保智能体在真实世界约束下稳健地规划和行动;以及智能体-环境交互,将智能体接入工具、API及物理或数字环境,实现端到端的任务完成。
这一方向自然延续了近年来在大规模AI系统和大语言模型可信性方面的工作。曾主导将大语言模型部署到Bing网络级推荐系统(2000亿+网页),研发了质量感知排序、基于LLM的候选生成以及用户偏好分析(KDD 2025, RecSys 2024)。相关研究还深入探索了支撑可靠智能体的核心能力:对上下文遗忘进行基准评测(ICF-Bench, ICLR 2026)、提升RAG对虚假特征的鲁棒性(ACL 2026)、评估长文本叙事一致性(ACL 2026),以及提出高效推理方法,包括自压缩(ConPress, ICML 2026)和轨迹融合(TrajFusion, ACL 2026)。
上述工作根植于十余年来在多模态内容理解和知识抽取领域的研究积累。早期在哥伦比亚大学和微软研究院的工作奠定了从文本、图像和视频中自动构建以事件为中心的知识库的基础——涵盖基于深度网络的视觉模式挖掘(PatternNet, ICMR 2018最佳张贴论文奖)、跨媒体事件抽取与共指消解(ACM Multimedia, EMNLP, NAACL)、多模态情感推理(MEmoR, ACM MM 2020)、目标检测(CVPR 2020)以及可扩展的视觉实例挖掘。
担任 ACM MM、ICME、IJCAI、IEEE TMM、IEEE TCSVT、TPAMI、JVCI、JVIS 等多个会议/期刊的审稿人及编委。
完整论文列表请访问 Google Scholar 主页。