人工智能论坛第38期——音频和文本的跨模态生成-北京邮电大学人工智能学院

当前位置: 网站首页 >> 通知公告 >> 正文

人工智能论坛第38期——音频和文本的跨模态生成

发布者： [发表时间]：2023-07-07 [来源]： [浏览次数]：

报告题目：音频和文本的跨模态生成

报告人：王文武英国萨里大学教授

主持人：李雅副教授

报告时间：2023年7月12号（周三）10：00-11：00

会议地点：创新楼211（线上线下同步进行）

腾讯会议：459-998-638

报告摘要:

音频和文本的跨模态生成已经成为自然语言处理和语音信号处理中的一个重要的研究领域。要实现音频-文本的跨模态生成，理解音频剪辑中的音频事件和场景以及解释自然语言中呈现的文本信息是必要的。此外，学习这两个信息流的映射和对齐也是核心技术之一。此次报告中将全面介绍音频和文本的跨模态生成领域的研究进展和未来可能的研究方向，包括问题描述，核心技术进展，潜在应用，数据集，开放挑战等。

专家简介：

王文武，英国萨里大学教授，萨里大学视觉语音和信号处理中心机器听觉实验室的联合主任。近年来在盲信号处理、稀疏信号处理、视听信号处理、机器学习与感知、人工智能、机器听觉、统计异常检测等领域取得丰富的科研成果，发表学术论文300余篇，并多次获得领域内重要奖项，如2022年IEEE信号处理学会青年作者最佳论文奖，ICAUS 2021最佳论文奖等。他也担任IEEE/ACM Transactions on Audio Speech and Language Processing的副主编等重要学术职务。