近日,由计算机学院自然语言处理(NLP)团队的兰曼和杨燕老师指导,张骏、许伟杰、孙宇翔、顾铭、陈妍五位研究生组成的竞赛团队,通过出色的模型设计和工程实现,喜获第八届CCF大数据与计算智能大赛二等奖。
图一 获奖证书
竞赛主题
近年来,自然语言处理中的人机对话受到了学术界和产业界的广泛关注。作为人机交互的最自然形式之一,人机对话成为人工智能发展水平的标志,推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究方向的快速进展。众多产业界巨头也不断相继推出了各垂域的人机对话技术相关产品,并将人机对话技术作为其公司的重点研发方向,进一步推动了人机对话技术在学术界和产业界的互惠发展。
千言多技能对话涵盖开放域闲聊对话、特定任务对话、推荐对话等多种对话任务,构建既能进行日常问候类的闲聊,又能完成特定功能(例如知识问答、目标推荐),并围绕主题进行丰富深入的知识对话,使得机器可以更加流畅自然地与人进行语言交互。
图二 比赛奖杯
作品介绍
本次比赛给定了三个类型的对话任务,分别为闲聊、知识对话、对话式推荐。其中闲聊任务为用户和机器人的自由聊天,知识对话需要在对话中引入常见的知识信息,推荐对话则需要机器人能够引导话题,将目标内容更为合理地推荐给用户。多种类型对话任务中,不仅考察模型生成回复内容的相关性和准确性,还考察模型在不同任务间进行场景变换的能力,以及在复杂任务场景下生成内容的多样性和流畅性。
本团队的解决方案基于GPT-2预训练模型,针对不同的任务设计具有任务适应性的子模型,各个子模型通过训练和优化集成为统一的模型,来应对不同对话场景下用户需求的转变。在最终评测阶段,本团队作品在各项机器评测指标上表现良好(BLEU,Distinct,F1),在人工评测指标上也表现出优秀的鲁棒性(切题、多样、流畅)。面对多样化的复杂对话场景,本模型能生成流畅自然、丰富多样的高质量回复,博得了评测人员的青睐,为本作品带来了二等奖的好成绩。
图三 模型设计图
团队感言
本次比赛不仅仅考验我们在NLP领域中对话生成任务的研究深度,更是考察团队成员团结互助、拼搏奋斗的合作精神,无数次的分享和热烈讨论,共同成就了这次比赛的好成绩。同时,我们也在和其他的队伍角逐中,学习诸多大牛的技术成果和研究理念,收获满满。NLP是个充满魅力的研究领域,我们也期待更多优秀学子加入NLP方向,推动对话生成朝着智能方向更快发展。
图四 团队合影
关于大赛
CCF大数据与计算智能大赛由中国计算机学会2013年创办,是大数据与人工智能领域的算法、应用、系统、创业大型挑战赛事。大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。
2020年10月中国计算机学会(CCF)和百度公司携手举办了第八届大数据与计算智能(BDCI)大赛--千言:多技能对话竞赛。本次比赛历时三个多月,吸引了国内外高校、互联网公司与人工智能研究机构等共计2673支队伍报名参赛。本次大赛共设置一等奖(1名,团队奖金2万元),二等奖(2名,团队奖金1万元)和三等奖(2名,团队奖金5千元)。
大赛迄今已成功举办七届,参赛规模、影响力逐年增强,累计吸引到了全球1500余所高校、1800家企事业单位及80余所科研机构的9万余人参与。其中,仅2019年第七届大赛,吸引全球25个国家的28269人组成25045支队伍参赛,这些参赛队伍来自谷歌、腾讯等1282家企业、麻省理工、清华大学等1215所高校,提交作品8万余件。大赛已经成为中国大数据与人工智能领域最具影响力的活动之一,是大数据综合赛事第一品牌。