jdhao's digital space

Recent content on jdhao's digital space

马上订阅 jdhao's digital space RSS 更新: https://jdhao.github.io/index.xml

两个大规模中文语料库介绍以及处理

2019年1月10日 00:27

目前进行的工作需要大规模的语料库来生成中文文本图像,因此查找资料,找了一些中文语料库。本文介绍其中的两个最大的语料库,THUCNews 语料库和中文维基百科语料库,以及如何对原始语料库文件进行简单预处理。