在这一背景下,以2015至2018年《人民日报》发表的文章为对象,我们构建了新版的人民日报分词语料。因为新版语料库收录的全部是进入新世纪以后的《人民日报》文章,而且均为2012年以后即中国特色社会主义进入新时代以后的文章,为区别于北京大学的1998年人民日报语料,将该语料命名为新时代人民日报语料(New Era People’s Daily Segmented Corpus,简称NEPD、NEPD语料或NEPD语料库)。为促进语料资源的开放和共享,NEPD的相关语料将对学界公布,供学术研究用,并且后续还将不断补充最新语料[1]。
参考文献:
[1] 黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评[J].图书情报工作,2019,63(22):5-12.
原文出处:http://corpus.njau.edu.cn/wiki/001
相关文章阅读
几个常见的汉语语料库分析
互联网上开放的中文语料库有哪些
分词介绍
新时代人民日报分词模型