发布时间 : 2021年1月18日 00:37
摘要:[目的/意义]构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程]在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论]新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。
作者:黄水清, 王东波
出处:《图书情报工作》 2019年第22期5-12,共8页
关键词:新时代; 人民日报; 自动分词; 条件随机场模型; 语料库; NEPD
原文出处:http://corpus.njau.edu.cn/achievements/001
相关文章阅读
什么是语料库
几个常见的汉语语料库分析
互联网上开放的中文语料库有哪些
分词介绍