您的位置:   网站首页    行业动态    《中文信息学报》2019年第10期:目录与摘要

《中文信息学报》2019年第10期:目录与摘要

阅读量:3705716 2019-10-23




 ↑点开查看清晰大图  
综述
? 中文医学知识图谱CMeKG构建初探
作  者:奥德玛,杨云飞,穗志方,代达劢,常宝宝,李素建,昝红英
摘  要:医学知识图谱是智慧医疗应用的基石,可以为机器阅读理解医学文本、智能咨询、智能诊断提供知识基础。现有的医学知识图谱从规模化、规范化、体系性、形式化等方面还不足以满足智慧医疗应用的需求。此外,对复杂医学知识的精准描述更是构建医学知识图谱面临的重要挑战。针对上述问题,该文利用自然语言处理与文本挖掘技术,以人机结合的方式研发了中文医学知识图谱第一版CMeKG 1.0(Chinese Medical Knowledge Graph)。CMeKG 1.0的构建参考了ICD-10、ATC、MeSH等权威的国际医学标准术语集以及规模庞大、多源异构的临床路径指南、临床实践、医学百科等资源,覆盖了疾病、药物和诊疗技术,包括100余万个医学概念关系的实例。该文综述了CMeKG 1.0构建过程中的描述体系、关键技术、构建流程以及医学知识描述等相关问题,希望为医学领域知识图谱的构建与应用提供一些参考。
关键词:知识图谱;智慧医疗;知识描述体系;知识提取
引用格式:奥德玛,杨云飞,穗志方,代达劢,常宝宝,李素建,昝红英. 中文医学知识图谱CMeKG构建初探[J]. 中文信息学报, 2019, 33(10): 1-7. BYAMBASUREN Odmaa, YANG Yunfei, SUI Zhifang, DAI Damai, CHANG Baobao, LI Sujian, ZAN Hongying. Preliminary Study>[J].Journal of Chinese Information Processing,2019, 33(10): 1-7.
? 基于远程监督的关系抽取研究综述
作  者:白 龙,靳小龙,席鹏弼,程学旗
摘  要:关系抽取作为信息抽取的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义,一直以来受到人们的关注。远程监督关系抽取技术通过外部知识库作为监督源,自动对语料库进行标注,能够大量节省人工标注成本,因而受到了研究者们的重视。该文针对远程监督关系抽取技术做了较为系统性的梳理,将已有方法分为基于概率图的、基于矩阵补全的和基于嵌入的三大类,并且对其当前面临的挑战进行了探讨,最后总结并展望了远程监督关系抽取技术未来的发展。
关键词:远程监督;关系抽取;信息抽取
引用格式:白龙,靳小龙,席鹏弼,程学旗. 基于远程监督的关系抽取研究综述[J]. 中文信息学报, 2019, 33(10): 10-17. BAI Long, JIN Xiaolong, XI Pengbi, CHENG Xueqi. A Survey>[J].Journal of Chinese Information Processing,2019, 33(10): 10-17.
知识表示与知识获取
? 基于多源信息融合的分布式词表示学习
作  者:冶忠林,赵海兴,张 科,朱 宇
摘  要:分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足: (1) 罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2) 中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示;(3) 互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进: (1) 通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联;(2) 通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分;(3) 通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离;(4) 通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。
关键词:词表示学习;词表示;词嵌入;词向量;词特征学习
引用格式:冶忠林,赵海兴,张科,朱宇. 基于多源信息融合的分布式词表示学习[J]. 中文信息学报, 2019, 33(10): 18-30. YE Zhonglin, ZHAO Haixing, ZHANG Ke, ZHU Yu. Distributed Word Embedding via Multi-Source Information Fusion[J].Journal of Chinese Information Processing, 2019, 33(10): 18-30.
机器翻译
? 会议场景下融合外部词典知识的领域个性化机器翻译方法
作  者:刘庆峰,刘晨璇,王亚楠,张为泰,刘俊华
摘  要:会议场景下通过语音识别和机器翻译技术实现从演讲人语音到另外一种语言文字的翻译,对于跨语言信息交流具有重要意义,成为当前研究热点之一。该文针对由于会议行业属性带来的专业术语和行业用语的翻译问题,提出了一种融合外部词典知识的领域个性化方法。具体而言,首先采用联合占位符和拼接融合的编码策略,通过引入外部词典知识,在提升实体词、专业术语词翻译准确率的同时,兼顾翻译结果的流畅性。其次提出基于分类的领域旁支参数个性化自适应策略,在保持通用领域翻译效果的情况下实现会议相关领域翻译质量的提升。最后基于上述方案,设计了一套领域个性化自动训练系统。实验结果表明,在中英体育、商务和医学会议翻译任务上,该系统在不影响通用翻译的情况下,平均提升9.22个BLEU,获得较好翻译效果。
关键词:机器翻译;词典知识;领域个性化
引用格式:刘庆峰,刘晨璇,王亚楠,张为泰,刘俊华. 会议场景下融合外部词典知识的领域个性化机器翻译方法[J]. 中文信息学报, 2019, 33(10): 31-37. LIU Qingfeng, LIU Chenxuan, WANG Yanan, ZHANG Weitai, LIU Junhua. Domain-Specific Machine Translation with External Dictionary Knowledge for Conference Scenarios[J].Journal of Chinese Information Processing,2019, 33(10): 31-37.
? Transformer-CRF词切分方法在蒙汉机器翻译中的应用
作  者:苏依拉,张 振,仁庆道尔吉,牛向华,高 芬,赵亚平
摘  要:基于编码—解码(端到端)结构的机器翻译逐渐成为自然语言处理之机器翻译的主流方法,其翻译质量较高且流畅度较好,但依然存在词汇受限、上下文语义信息丢失严重等问题。该文首先进行语料预处理,给出一种Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构建了基于Tensor2Tensor的编码—解码模型,为了从蒙古语语料中学习更多的语法和语义知识,该文给出了一种基于词素四元组编码的词向量作为编码器输入,解码阶段。为了进一步缓解神经网络训练时出现的词汇受限问题,该文将专有名词词典引入翻译模型来进一步提高翻译质量和译文忠实度。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性能得到提高。
关键词:蒙汉翻译;Transformer-CRF分词算法;蒙古语词素
引用格式:苏依拉,张振,仁庆道尔吉,牛向华,高芬,赵亚平. Transformer-CRF词切分方法在蒙汉机器翻译中的应用[J]. 中文信息学报, 2019, 33(10): 38-46. SU Yila, ZHANG Zhen, RENQING Dao'erji, NIU Xianghua, GAO Fen, ZHAO Yaping. Application of Transformer-CRF Word Segmentation Method in Mongolian-Chinese Machine Translation[J].Journal of Chinese Information Processing,2019, 33(10): 38-46.
信息抽取与文本挖掘
? 基于多特征自注意力BLSTM的中文实体关系抽取
作  者:李卫疆,李 涛,漆 芳
摘  要:实体关系抽取解决了原始文本中目标实体之间的关系分类问题,同时也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。由于中文句式和语法结构复杂,并且汉语有更多歧义,会影响中文实体关系分类的效果。该文提出了基于多特征自注意力的实体关系抽取方法,充分考虑词汇、句法、语义和位置特征,使用基于自注意力的双向长短期记忆网络来进行关系预测。在中文COAE 2016 Task 3和英文SemEval 2010 Task 8 数据集上的实验表明该方法表现出了较好的性能。
关键词:实体关系抽取;自注意力;双向长短期记忆网络;多特征
引用格式:李卫疆,李涛,漆芳. 基于多特征自注意力BLSTM的中文实体关系抽取[J]. 中文信息学报, 2019, 33(10): 47-56,72. LI Weijiang, LI Tao, QI Fang. Chinese Entity Relation Extraction Based>[J].Journal of Chinese Information Processing,2019, 33(10): 47-56,72.
? 基于Gate-ResNet-D模型的远程监督关系提取方法
作  者:袁祯祺,宋 威,陈 璟
摘  要:在实体关系抽取任务中,通常采用远程监督(distant supervision,DS)数据集,远程监督方法能通过大规模语料库自动标注数据来扩张数据集,但这无疑会使数据集充满大量的噪声。为此,该文将深度残差网络(deep residual network,ResNet)应用到关系提取的远程监督数据集上,通过加深网络层数来提高模型降噪能力。同时,提出了Gate模块,有效提高了深度残差网络的性能。该模块可以学习到每个特征通道的重要性,通过权重增强或抑制各个特征通道的比重,从而防止过拟合。另外,为了进一步解决数据集降噪问题,还提出了一种双池化层的池化层新方案。实验结果表明所提方法相比于目前效果较好的PCNN+ATT模型,在准确率和召回率上都有3%左右的提升。
关键词:实体关系提取;远程监督;深度残差网络
引用格式:袁祯祺,宋威,陈璟. 基于Gate-ResNet-D模型的远程监督关系提取方法[J]. 中文信息学报, 2019, 33(10): 57-63. YUAN Zhenqi, SONG Wei, CHEN Jing. Gate-ResNet-D for Relation Extraction with Distant Supervision[J].Journal of Chinese Information Processing,2019, 33(10): 57-63.
? 基于卷积循环神经网络的关系抽取
作  者:宋 睿,陈 鑫,洪 宇,张 民
摘  要:关系抽取是信息抽取领域一项十分具有挑战性的任务,用于将非结构化文本转化为结构化数据。近年来,卷积神经网络和循环神经网络等深度学习模型,被广泛应用于关系抽取的任务中,且取得了不错的效果。卷积网络和循环网络在该任务上各有优势,且存在一定的差异性。其中,卷积网络擅长局部特征提取,循环网络能够捕获序列整体信息。针对该现象,该文综合卷积网络抽取局部特征的优势和循环网络在时序依赖中的建模能力,提出了卷积循环神经网络(convolutional recurrent neural network,CRNN)。该模型分为三层: 首先针对关系实例抽取多粒度局部特征,然后通过聚合层融合不同粒度的特征,最后利用循环网络提取特征序列的整体信息。此外,该文还探究多种聚合策略对信息融合的增益,发现注意力机制对多粒度特征的融合能力最为突出。实验结果显示,CRNN优于主流的卷积神经网络和循环神经网络,在SemEval 2010 Task 8数据集上取得了86.52%的F1值。
关键词:关系抽取;卷积神经网络;循环神经网络;聚合策略;注意力机制
引用格式:宋睿,陈鑫,洪宇,张民. 基于卷积循环神经网络的关系抽取[J]. 中文信息学报, 2019, 33(10): 64-72. SONG Rui, CHEN Xin, HONG Yu, ZHANG Min. Combination of Convolutional Recurrent Neural Network for Relation Extraction[J].Journal of Chinese Information Processing, 2019, 33(10): 64-72.
阅读理解与文本生成
?MCA-Reader: 基于多重联结机制的注意力阅读理解模型
作  者:张禹尧,蒋玉茹,毛 腾,张仰森 
摘  要:机器阅读理解是当下自然语言处理的一个热门任务,其内容是: 在给定文本的基础上,提出问题,机器要在给定文本中寻找并给出最终问题的答案。片段抽取式阅读理解是当前机器阅读理解研究的一个典型的方向,机器通过预测答案在文章中的起始和结束位置来定位答案。在此过程中,注意力机制起着不可或缺的作用。该文为了更好地解决片段抽取式机器阅读理解任务,提出了一种基于多重联结机制的注意力阅读理解模型。该模型通过多重联结的方式,更有效地发挥了注意力机制在片段抽取式机器阅读理解任务中的作用。利用该模型,在第二届“讯飞杯”中文机器阅读理解评测(CMRC2018)的最终测试集上EM值为71.175,F1值为88.090,排名第二。
关键词:机器阅读理解;注意力机制;多重联结
引用格式:张禹尧,蒋玉茹,毛腾,张仰森. MCA-Reader:基于多重联结机制的注意力阅读理解模型[J]. 中文信息学报, 2019, 33(10): 73-80. ZHANG Yuyao, JIANG Yuru, Mao Teng, ZHANG Yangsen. MCA-Reader: Multi-connected Attention Model for Machine Reading Comprehension[J].Journal of Chinese Information Processing, 2019, 33(10): 73-80.
?机器阅读理解中观点型问题的求解策略研究
作  者:段利国,高建颖,李爱萍 
摘  要:针对机器阅读理解中观点型问题的求解,提出一个端到端深度学习模型,使用Bi-GRU对文章和问题进行上下文语义编码,然后运用基于拼接、双线性、点乘和差集4种函数的注意力加上Query2Context和Context2Query两个方向注意力的融合算法获取文章和问题的综合语义信息,之后运用多层注意力转移推理机制不断聚焦,进一步获取更加准确的综合语义,最终将其与候选答案进行比较,选出正确答案。该模型在AIchallager2018观点型阅读理解中文测试数据集上准确率达到76.79%,性能超过基线系统。此外,该文尝试文章以句子序列作为输入表示进行答案求解,准确率达到78.48%,获得较好试验效果。
关键词:深度学习;机器阅读理解;注意力机制;Bi-GRU
引用格式:段利国,高建颖,李爱萍. 机器阅读理解中观点型问题的求解策略研究[J]. 中文信息学报, 2019, 33(10): 81-89. DUAN Liguo, GAO Jianying, LI Aiping. A Study>[J].Journal of Chinese Information Processing, 2019, 33(10): 81-89.
?基于层次结构的生成式自动文摘
作  者:吴仁守,张宜飞,王红玲,张 迎 
摘  要:基于编码器—解码器架构的序列到序列学习模型是近年来主流的生成式文摘方法。但是,传统的编码器尚不能有效地对长文档进行语义编码,并且只能学习线性链结构的信息, 忽视了文档具有的层次结构。而文档的层次结构(字—句—文档)有助于自动文摘系统更加准确地判断文档内不同结构单元的语义信息和重要程度。为了使编码器能够获取文档的层次结构信息,该文根据文档的层次结构对文档进行编码: 首先构建字级语义表示,然后由字级语义表示构建句级语义表示。另外,该文还提出了一种语义融合单元来对输入文档不同层次的语义信息进行融合,作为最终的文档表示提供给编码器生成摘要。实验结果表明,在加入该文提出的层次文档阅读器与语义融合单元后,系统性能在 ROUGE 评价指标上有显著提高。
关键词:文档层次结构;自动文摘;自然语言生成
引用格式:吴仁守,张宜飞,王红玲,张迎. 基于层次结构的生成式自动文摘[J]. 中文信息学报, 2019, 33(10): 90-98. WU Renshou, ZHANG Yifei, WANG Hongling, ZHANG Ying. Abstractive Summarization Based>[J].Journal of Chinese Information Processing,2019, 33(10): 90-98.
问答与对话
?面向问句复述识别的多卷积自交互匹配方法研究
作  者:陈 鑫,李伟康,洪 宇,周夏冰,张 民 
摘  要:问句复述识别旨在识别两个自然问句是否语义一致。目前,基于表示学习和深度神经网络架构的复述识别技术已取得较好效果。但是,这类方法往往面临复杂度较高且训练难度较大的瓶颈。针对这一问题,该文提出一种快速的多卷积自交互匹配方法。该方法融合了多种句子特征和词义特征,并由此形成分布式表示。在此基础上,这一方法利用卷积神经网络获取短语级的句子向量表示,并利用自交互融合技术将词级与短语级的向量表示进行充分融合,借以获得多粒度句子向量表示。该文将这一方法应用于判定自然语句是否互为复述的二元分类任务中,利用Quora标准问句复述识别语料进行测试。实验结果证明,在不引入外部数据的情况下,该文所提方法与基于双向多视角匹配的基准模型具有可比的性能,但在空间复杂度上具有较高的优越性,并且获得更快训练速度。具体地,该方法训练所需的物理显存比基准模型方法下降80%,训练迭代速度快19倍。
关键词:复述识别;多卷积交互;效率
引用格式:陈鑫,李伟康,洪宇,周夏冰,张民. 面向问句复述识别的多卷积自交互匹配方法研究[J]. 中文信息学报, 2019, 33(10): 99-108,118. CHEN Xin, LI Weikang, HONG Yu, ZHOU Xiabing, ZHANG Min. A Multi-Convolution Self-Interaction Method for Question Paraphrase Identification[J].Journal of Chinese Information Processing, 2019, 33(10): 99-108,118.
情感分析与社会计算
?融合注意力机制的多通道卷积与双向GRU模型的文本情感分析研究
作  者:袁和金,张 旭,牛为华,崔克彬
摘  要:文本情感分析作为自然语言处理领域的一大分支,具有非常高的研究价值。该文提出了一种基于多通道卷积与双向GRU网络的情感分析模型。该模型首先使用多通道卷积神经网络对文本不同粒度的特征信息进行提取,提取后的特征信息经过融合送入双向 GRU 中,结合注意力机制获得文本的上下文情感特征,最后由分类器给出文本的情感倾向。注意力机制自适应的感知上下文信息进而提取对情感极性影响较强的特征,在模型的基础上引入Maxout神经元,解决模型训练过程中的梯度弥散问题。模型在IMDb及SST-2数据集上进行实验,实验结果表明本文模型较CNN-RNN模型在分类精确度上有了一定程度的提升。
关键词:文本情感分析;多通道卷积;门限循环单元;注意力机制
引用格式:袁和金,张旭,牛为华,崔克彬. 融合注意力机制的多通道卷积与双向GRU模型的文本情感分析研究[J]. 中文信息学报, 2019, 33(10): 109-118. YUAN Hejin, ZHANG Xu, NIU Weihua, CUI Kebin. Sentiment Analysis Based>[J].Journal of Chinese Information Processing,2019, 33(10): 109-118.
?基于联合学习的问答情感分类方法
作  者:安明慧,沈忱林,李寿山,李逸薇
摘  要:面向问答型评论的情感分类在情感分析领域是一项新颖且极具挑战性的研究任务。由于问答型评论情感分类标注数据非常匮乏,基于监督学习的情感分类方法的性能有一定限制。为了解决上述困境,该文提出了一种基于联合学习的问答情感分类方法。该方法通过大量自然标注普通评论辅助问答情感分类任务,将问答情感分类作为主任务,将普通评论情感分类作为辅助任务。具体而言,首先通过主任务模型单独学习问答型评论的情感信息;其次,使用问答型评论和普通评论共同训练辅助任务模型,以获取问答型评论的辅助情感信息;最后通过联合学习同时学习和更新主任务模型及辅助任务模型的参数。实验结果表明,基于联合学习的问答情感分类方法能较好融合问答型评论和普通评论的情感信息,大幅提升问答情感分类任务的性能。
关键词:情感分类;问答文本;联合学习
引用格式:安明慧,沈忱林,李寿山,李逸薇. 基于联合学习的问答情感分类方法[J]. 中文信息学报, 2019, 33(10): 119-126. AN Minghui, SHEN Chenlin, LI Shoushan, LEE Sophia Yat Mei. Joint Learning for Sentiment Classification Towards Question-Answering Reviews[J].Journal of Chinese Information Processing, 2019, 33(10): 119-126.
自然语言处理应用
?基于词语语义差异性的多标签罪名预测
作  者:王加伟,张 虎,谭红叶,王元龙,赵红燕,李 茹 
摘  要:罪名预测是智慧司法领域中的一项重要研究内容,其旨在依据犯罪事实自动预测出犯罪主体触犯的罪名。犯罪事实是案件的真实客观描述,犯罪事实中各词语的语义重要性在不同罪名的判决中有所差异,而现有方法在对犯罪事实建模的过程中往往忽略了这种语义差异性,且缺乏对数罪并罚情形的处理。为此,该文在对犯罪事实的建模过程中将词语的语义差异融入注意力机制;并将数罪并罚情形下的多标签罪名预测转化为多个独立的单标签罪名预测。实验结果表明,该文基于词语语义差异性建模和多标签转化策略均有利于提升罪名预测的效果,在“中国法研杯”2018司法人工智能挑战赛公布的数据集上达到了88.0%的F1值。
关键词:罪名预测;语义差异性;多标签
引用格式:王加伟,张虎,谭红叶,王元龙,赵红燕,李茹. 基于词语语义差异性的多标签罪名预测[J]. 中文信息学报, 2019, 33(10): 127-134. WANG Jiawei, ZHANG Hu, TAN Hongye, WANG Yuanlong, ZHAO Hongyan, Li Ru. Multi-label Charge Prediction Based>[J].Journal of Chinese Information Processing, 2019, 33(10): 127-134.
?短语音及易混淆语种识别改进系统
作  者:李卓茜,高 镇,王 化,刘俊南,朱光旭 
摘  要:该文针对短语音(语段时长小于等于1s)和易混淆语音的语种识别进行研究。选取东方多语种识别竞赛数据集为实验数据集,对比了音素对数似然比特征、梅尔频率倒谱系数特征、深度瓶颈层特征(DBF)在短语音及易混淆语种识别中的性能,证明DBF在两种识别任务中均具有较好的性能。为提升识别准确率提出DBF-I-VECTOR语种识别改进系统,该系统分别将基线DBF-I-VECTOR系统的短语音识别等错误率最优结果从12.26%降低为10.55%,易混淆语音识别等错误率(EER)最优结果从5.53%降低为2.86%。在对比改进系统后端的余弦距离(CDS)、概率线性判别分析(PLDA)、支持向量机(SVM)、极端梯度提升(XGBoost)、随机森林(RF)分类性能时发现RF在短语音任务中分类效果最好,SVM在易混淆任务中分类效果最好。 
关键词:短语音;易混淆语种;语种识别;语音特征
引用格式:李卓茜,高镇,王化,刘俊南,朱光旭. 短语音及易混淆语种识别改进系统[J]. 中文信息学报, 2019, 33(10): 135-142. LI Zhuoxi, GAO Zhen, WANG Hua, LIU Junnan, ZHU Guangxu. An Improved System for Short-term and Confusing Language Recognition[J].Journal of Chinese Information Processing,2019, 33(10): 135-142.

↑点开查看清晰大图  
戳原文,获取相关论文链接!
今日责编:你是哪个李

在线QQ咨询,点这里

QQ咨询

微信服务号