南开大学
计算机学院

数据库与信息系统研究室

数据库与信息系统研究室师生3篇论文被国际学术会议EMNLP 2022录用

EMNLP 2022(The 2022 Conference on Empirical Methods in Natural Language Processing)将于2022年12月7日至11日以线下和在线混合会议的形式举办。EMNLP是计算语言学和自然语言处理领域顶级国际会议之一,CCF B类会议。

EMNLP 2022接收的论文覆盖了对话交互系统、信息抽取、信息检索和文档分析、词法语义、语言学理论、认知建模和心理语言学、用于NLP的机器学习、机器翻译与多语言、问答、句子级语义学、情感分析和论点挖掘、文本挖掘和NLP应用、文本推理等自然语言处理领域众多研究方向。

数据库与信息系统研究室师生有3篇长文被录用,其中2篇被主会录用,1篇被Findings of EMNLP子刊录用。下面是论文列表及介绍:

  • 周宝航,张莹,宋珂慧,郭文雅,赵国庆,王洪斌,袁晓洁,A Span-based Multimodal Variational Autoencoder for Semi-supervised Multimodal Named Entity Recognition,EMNLP,2022。

  • 赵钰,蔡祥睿,吴一可,张海威,张莹,赵国庆,蒋宁,MoSE: Modality Split and Ensemble for Multimodal Knowledge Graph Completion,EMNLP,2022。

  • 张莹,周宝航,宋珂慧,隋旭辉,赵国庆,蒋宁,袁晓洁,PM2F2N: Patient Multi-view Multi-modal Feature Fusion Networks for Clinical Outcome Prediction,Findings of EMNLP,2022。

1.论文题目:A Span-based Multimodal Variational Autoencoder for Semi-supervised Multimodal Named Entity Recognition

作者:周宝航,张莹,宋珂慧,郭文雅,赵国庆,王洪斌,袁晓洁

通讯作者:张莹

录用会议/期刊:EMNLP 2022

论文概述:社交媒体上的多模态命名实体识别(MNER)是一项具有挑战性的任务,它旨在从文本中提取命名实体,并结合图像将其分类为用户预定义的类型。现有的半监督命名实体识别方法侧重于利用文本模态,用于降低传统NER的标注成本。然而,对于半监督MNER,之前的方法并不高效。因为MNER任务被定义为将文本信息与图像信息相结合,需要考虑文本与图像之间的不匹配等问题。为了在半监督设定下有效融合MNER的文本和图像特征,提出了一种基于片段的多模态变分自编码器(SMVAE)模型。该方法利用基于特定模态的变分自编码器对文本和图像的潜在特征进行建模,并利用专家乘积计算多模态特征。在我们的方法中,标签和多模态特征之间的隐式关系是用多模态VAE建模的。因此,在半监督设置下,我们的方法可以利用未标记数据的有效信息。在两个基准数据集上的实验结果表明,我们的方法不仅在监督设置下优于基线,而且在标记数据更少的情况下也比现有的半监督方法提高了MNER的性能。

2.论文题目:MoSE: Modality Split and Ensemble for Multimodal Knowledge Graph Completion

作者:赵钰,蔡祥睿,吴一可,张海威,张莹,赵国庆,蒋宁

通讯作者:蔡祥睿

录用会议/期刊:EMNLP 2022

论文概述:多模态知识图谱补全旨在预测多模态知识图谱中的缺失实体。现有的工作通常使用跨多模态共享的关系表征。这导致了训练过程中模态之间的互相干扰,因为在一对实体之间,一个模态体现出的关系可能与另一个模态的关系相矛盾。此外,基于共享的关系表征进行统一的预测时,模型相同地对待不同的模态,但他们对多模态知识图谱补全任务的重要性应该是不同的。在这篇文章中,我们提出了MoSE,一个模态分离表征学习和集成推理的多模态知识图谱补全框架。具体地说,在训练阶段,我们为每个模态学习模态分离的关系表征,而不是单个模态共享的表征,这减轻了模态互相干扰。基于这些表征,在推理阶段,我们首先得到模态分离的预测,然后运用多种集成方法将模态分离预测用不同权重组合起来,动态地对模态重要性进行建模。在三个知识图谱数据集上的实验结果表明,MoSE优于最先进的MKGC方法。

3.论文题目:PM2F2N: Patient Multi-view Multi-modal Feature Fusion Networks for Clinical Outcome Prediction

作者:张莹,周宝航,宋珂慧,隋旭辉,赵国庆,蒋宁,袁晓洁

通讯作者:袁晓洁

录用会议/期刊:Findings of EMNLP 2022

论文概述:临床预后预测是用于患者病情预测和医院资源管理的关键任务。目前常用的两种医疗数据为各种设备记录的时间序列信号和电子健康记录(EHR)中的临床记录。这两种数据常被用于两个预测目标:死亡率和住院时间。传统方法侧重于利用时间序列数据,而忽略了临床记录。随着深度学习的发展,人们利用自然语言处理和多模态学习方法对不同模态的时间序列和临床病历进行联合建模。然而,现有的方法无法从不同角度融合患者的多模态特征。因此,我们提出了患者多视角多模态特征融合网络用于临床预后预测。首先,从患者的内部视图出发,我们提出利用协同注意模块来增强时间序列与每位患者临床记录之间的细粒度特征交互。其次,患者的外部视图是患者之间的相关性,这可以通过临床笔记中的结构性知识来体现。我们利用从临床病历中提取的结构信息构建患者相关图,并基于图神经网络(GNN)融合患者的多模态特征。最终我们在MIMIC-III基准数据集上进行了实验,且相关结果证明了提出方法的优越性。

分享到:
Baidu
map