avatar avatar 我的文献 基于Bi-LSTM的泰语句子切分方法研究 单位 辽宁科技大学计算机与软件工程学院 期刊 计算机工程 时间 关键词 自然语言处理; 句子切分; 深度学习; 循环神经网络; LSTM; 泰语 基金 国家自然科学基金项目(61672138)
摘要
句子边界自动识别技术,简称分句技术,是自然语言处理中的一项重要且基础性的工作。在自然语言处理(Natural Language Processing, NLP)领域中,对于泰语等东南亚语种语言的处理工作一直都是一项具有挑战性的工作;本文首次将序列标注模型应用于分句任务,提出了一种基于双向长短期记忆循环神经网络(Bi-LSTM-RNN)的句子边界自动识别模型。该模型利用Glove词向量技术,将泰语句子中的词或字转换成不同维度的向量,将词或字向量组合成为句子向量后输入模型中进行训练。与此同时,模型通过双向网络结构捕捉到双向的上下文信息,从而达到更好的模型效果。实验表明,该模型在泰语分句任务上取得了很好的性能,能够有效地提升泰语句子边界识别任务的准确性。另外,该方法同样可以适用于和泰语具有相似语言特性的语言,如阿拉伯语、高棉语、老挝语等。
下载 浏览 cnki {{liketext}}
©2020 - iData {{ message }} 关闭