什么是语料库

索引：489
发布时间：2021-03-29
点击次数：
加入收藏
发表评论
语音阅读

语料库是由人工或机器标注好的真实语言材料组成的数据集。开展与自然语言相关的研究，语料库是有效的工具和手段。依据语料库既可以研究语言普遍规律也可以针对具体文本开展研究。在中文信息处理的研究中，训练语料通常由通用语料和领域语料组成。在汉语通用语料方面，由北京大学计算语言研究所构建的1998年人民日报语料最具代表性，影响力也最大。但是，随着时间的推移，1998年所构建的精加工人民日报语料，在词汇的时效性、完备性和覆盖度上均需要进行更新、补充和增加。

在这一背景下，以2015至2018年《人民日报》发表的文章为对象，我们构建了新版的人民日报分词语料。因为新版语料库收录的全部是进入新世纪以后的《人民日报》文章，而且均为2012年以后即中国特色社会主义进入新时代以后的文章，为区别于北京大学的1998年人民日报语料，将该语料命名为新时代人民日报语料(New Era People’s Daily Segmented Corpus，简称NEPD、NEPD语料或NEPD语料库)。为促进语料资源的开放和共享，NEPD的相关语料将对学界公布，供学术研究用，并且后续还将不断补充最新语料[1]。

参考文献：
[1] 黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评[J].图书情报工作,2019,63(22):5-12.

原文出处：http://corpus.njau.edu.cn/wiki/001

相关文章阅读
几个常见的汉语语料库分析
互联网上开放的中文语料库有哪些
分词介绍
新时代人民日报分词模型

最新推荐

新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评
黄水清教授团队关于语料库构建及测评的文章发表于《图书情报工作》杂志。在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。遵循现代汉语语料库基本加工规范,规模大,时间跨度长。新时代人民日报语料整体性能突出,历史语料无法替代,当前构建该语料库非常必要。
2021-04-2117
传统分词算法总结
概述最大匹配算法,最短路径分词,N元语言模型分词,HMM分词等传统分词模型，可以应用到新时代人民日报分词语料由南京农业大学黄水清教授团队整理。
2021-04-0621
什么是语料库
新时代人民日报语料库（NEPD）语料库介绍由南京农业大学黄水清教授团队整理分享，介绍什么是语料库，以及语料库的训练过程等。
2021-03-29156
几个常见的汉语语料库分析
新时代人民日报语料库（NEPD）分词算法由南京农业大学黄水清教授团队整理分享，详解北京大学人民日报分词语料、国家语委现代汉语通用平衡语料库、清华汉语书库分词语料和宾州汉语书库分词语料。
2021-03-2342
互联网上开放的中文语料库有哪些
新时代人民日报语料库（NEPD）及其它开放中文语料库由南京农业大学黄水清教授团队整理分享，包含互联网上开放的国内或国际平台开发的21种中文语料库。
2021-03-15169
分词介绍
新时代人民日报语料库（NEPD）分词介绍由南京农业大学黄水清教授团队整理分享，详解中文自动分词的概念，并介绍中文自动分词的三种方法：1. 基于规则的分词方法，2. 基于统计的分词方法，3. 基于机器学习的分词方法，是目前最智能的方法。
2021-03-0710
新时代人民日报分词模型
新时代人民日报语料库（NEPD）分词算由南京农业大学黄水清教授团队整理分享，详解分词算法的四种模型：1. 隐马尔科夫模型（HMM），2. 条件随机场（CRF）模型，3. 长短时记忆模型（LSTM），4.BERT采用了双向Transfromer结构，是最先近的模型。
2021-03-01166

推广文章

什么是语料库