李宏智教授

个人简介

同济大学工程智能研究院长聘特聘教授、博士生导师。于哥伦比亚大学计算机科学专业获得博士学位。。

曾任微软研究院、微软搜索与人工智能事业部（美国总部）首席研究员和首席架构师；微软人工智能亚太区首席应用科学家，生成式人工智能部门负责人。

长期研究目标是构建可扩展的、知识丰富的人工智能系统，使其能够在多模态的真实世界环境中感知、推理和行动。当前研究聚焦于自主AI智能体系统——智能系统的下一代范式。主要方向包括：多智能体进化与协作，使专业化智能体团队能够通过交互进行协调、适应和提升；智能体记忆与知识库构建，设计智能体动态获取、组织、检索和遗忘知识的机制；可靠高效的智能体推理，确保智能体在真实世界约束下稳健地规划和行动；以及智能体-环境交互，将智能体接入工具、API及物理或数字环境，实现端到端的任务完成。

这一方向自然延续了近年来在大规模AI系统和大语言模型可信性方面的工作。曾主导将大语言模型部署到Bing网络级推荐系统（2000亿+网页），研发了质量感知排序、基于LLM的候选生成以及用户偏好分析（KDD 2025, RecSys 2024）。相关研究还深入探索了支撑可靠智能体的核心能力：对上下文遗忘进行基准评测（ICF-Bench, ICLR 2026）、提升RAG对虚假特征的鲁棒性（ACL 2026）、评估长文本叙事一致性（ACL 2026），以及提出高效推理方法，包括自压缩（ConPress, ICML 2026）和轨迹融合（TrajFusion, ACL 2026）。

上述工作根植于十余年来在多模态内容理解和知识抽取领域的研究积累。早期在哥伦比亚大学和微软研究院的工作奠定了从文本、图像和视频中自动构建以事件为中心的知识库的基础——涵盖基于深度网络的视觉模式挖掘（PatternNet, ICMR 2018最佳张贴论文奖）、跨媒体事件抽取与共指消解（ACM Multimedia, EMNLP, NAACL）、多模态情感推理（MEmoR, ACM MM 2020）、目标检测（CVPR 2020）以及可扩展的视觉实例挖掘。

担任 ACM MM、ICME、IJCAI、IEEE TMM、IEEE TCSVT、TPAMI、JVCI、JVIS 等多个会议/期刊的审稿人及编委。

教育背景

计算机科学博士

哥伦比亚大学（Columbia University），美国

计算机科学硕士

哥伦比亚大学（Columbia University），美国

计算机科学学士

浙江大学（Zhejiang University），中国

代表性学术论文

完整论文列表请访问 Google Scholar 主页。

2025

Towards Web-scale Recommendations with LLMs: From Quality-aware Ranking to Candidate Generation

Jay Shah, Iman Barjasteh, Ankur Barapatre, Rana Forsati, Gang Luo, Fei Wu, Yuchen Fang, Xia Deng, Hongzhi Li, et al.

ACM SIGKDD (KDD), 2025

2024

Analyzing User Preferences and Quality Improvement on Bing's WebPage Recommendation Experience with Large Language Models

Jay Shah, Gang Luo, Jing Liu, Ankur Barapatre, Fei Wu, Changhe Wang, Hongzhi Li

ACM Conference on Recommender Systems (RecSys), pp. 751–754, 2024

WebReco: A Comprehensive Overview of an Industrial-Scale Webpage Recommendation System at Bing

Jay Shah, Iman Barjasteh, Ankur Barapatre, Changhe Wang, Gang Luo, Rana Forsati, Jay Chu, Hongzhi Li, et al.

2024

Leveraging LLMs to Enhance a Web-Scale Webpage Recommendation System

Iman Barjasteh, Jay Shah, Ankur Barapatre, Rana Forsati, Gang Luo, Fei Wu, Hongzhi Li, et al.

2024

2020

Rethinking Classification and Localization for Object Detection

Yue Wu, Yinpeng Chen, Lu Yuan, Zicheng Liu, Lijuan Wang, Hongzhi Li, Yun Fu

IEEE/CVF CVPR, 2020

MEmoR: A Dataset for Multimodal Emotion Reasoning in Videos

Guangyao Shen, Xin Wang, Xuguang Duan, Hongzhi Li, Wenwu Zhu

ACM MM, 2020

2019

Multi-Modal Deep Analysis for Multimedia

Wenwu Zhu, Xin Wang, Hongzhi Li

IEEE TCSVT, 2019

2018

PatternNet: Visual Pattern Mining with Deep Neural Network

Hongzhi Li, Joseph G. Ellis, Lei Zhang, Shih-Fu Chang

ACM ICMR, 2018 最佳海报奖

Automatic Visual Pattern Mining from Categorical Image Dataset

Hongzhi Li, Joseph G. Ellis, Lei Zhang, Shih-Fu Chang

IJMIR, 2018

2017

Improving Event Extraction via Multimodal Integration

Tongtao Zhang, Spencer Whitehead, Hanwang Zhang, Hongzhi Li, Joseph G. Ellis, Lifu Huang, Wei Liu, Heng Ji, Shih-Fu Chang

ACM MM, 2017

2016

Event Specific Multimodal Pattern Mining for Knowledge Base Construction

Hongzhi Li, Joseph G. Ellis, Heng Ji, Shih-Fu Chang

ACM MM, 2016

Placing Broadcast News Videos in their Social Media Context Using Hashtags

Joseph G. Ellis, Svebor Karaman, Hongzhi Li, Hong Bin Shim, Shih-Fu Chang

ACM MM, 2016

Cross-media Event Extraction and Recommendation

Di Lu, Clare R. Voss, Fangbo Tao, Xiang Ren, Rachel Guan, Rostyslav Korolov, Tongtao Zhang, Dongang Wang, Hongzhi Li, et al.

NAACL, 2016

Watching What and How Politicians Discuss Various Topics: A Large-Scale Video Analytics UI

Emily Song, Joseph G. Ellis, Hongzhi Li, Shih-Fu Chang

ACM ICMR, 2016

2015

Cross-document Event Coreference Resolution based on Cross-media Features

Tongtao Zhang, Hongzhi Li, Heng Ji, Shih-Fu Chang

EMNLP, 2015

2014

Scalable Visual Instance Mining with Threads of Features

Wei Zhang, Hongzhi Li, Chong-Wah Ngo, Shih-Fu Chang

ACM MM, 2014

2013

News Rover: Exploring Topical Structures and Serendipity in Heterogeneous Multimedia News Sources

Hongzhi Li*, Brendan Jou*, Joseph G. Ellis*, Daniel Morozoff*, Shih-Fu Chang

ACM MM, 2013

Structured Exploration of Who, What, When, and Where in Heterogeneous Multimedia News Sources

Brendan Jou*, Hongzhi Li*, Joseph G. Ellis*, Daniel Morozoff*, Shih-Fu Chang

ACM MM, 2013

mPano: Cloud-Based Mobile Panorama View from Single Picture

Hongzhi Li, Wenwu Zhu

SPIE Optics & Photonics, 2013

News Rover

Brendan Jou*, Hongzhi Li*, Joseph G. Ellis*, Daniel Morozoff*, Shih-Fu Chang

GNYMV Workshop, 2013 最佳演示奖

Joint Social and Content Recommendation for User-Generated Videos in Online Social Network

Zhi Wang, Lifeng Sun, Wenwu Zhu, Shiqiang Yang, Hongzhi Li, Dapeng Oliver Wu

IEEE TMM, 2013

2012

A Novel Large-Scale Digital Forensics Service Platform for Internet Videos

Hao Yin, Wen Hui, Hongzhi Li, Chuang Lin, Wenwu Zhu

IEEE TMM, vol. 14, no. 1, pp. 178–186, 2012

2011

Real-time 3D Applications on Handheld Devices: Challenges and Trend

Wenwu Zhu, Dan Miao, Hongzhi Li

IEEE COMSOC MMTC E-Letter, Vol. 6, No. 6, 2011

2010

Melog

Hongzhi Li, Xian-Sheng Hua, Xijia Liu

ACM MM, 2010

Melog: Mobile Experience Sharing through Automatic Multimedia Blogging

Hongzhi Li, Xian-Sheng Hua

ACM Multimedia Workshop, 2010

最新动态

个人简介

教育背景

代表性学术论文

荣誉奖项

学术服务

程序委员会委员

期刊审稿人

联系方式

电子邮件

所属单位

Google Scholar

李宏智 教授

最新动态

个人简介

教育背景

代表性学术论文

荣誉奖项

学术服务

程序委员会委员

期刊审稿人

联系方式

电子邮件

所属单位

Google Scholar

李宏智教授