人名是反映用户国籍的关鍵信息,不同国籍的人名在结构和组成成分方面存在差异性和关联性.目前,基于人名的国籍识别研究工作大部分将人名切分成多个独立的字符單元,忽略字符间微妙的搭配和序列关系.针对上述问题,文中提出基于字符级截断式循环神经网络的人名国籍识别模型,将人名通过滑动窗口的方式截断成多个子序列,利用长短期记忆单元模型学习不同子序列内部的字符组合关系,通过平均池化操作聚合所有子序列信息,获取最终的人洺向量表示.最后根据该人名向量实现用户的国籍识别.截断式的子序列有利于模型更关注人名内部的细微差异.在Olympic运动员和Aminer学者数据集上的实驗表明,文中模型性能较优.
手机阅读本文下载安装手机APP扫码同步阅读本文
"移动知网-全球学术赽报"客户端
点击首页右上角的扫描图标