语料库是储存和归整措辞材料的仓库。是措辞研究的主要根本。但它并不是措辞材料的大略堆砌。
尤其对付具有分外性的汉语古籍语料库而言。因此在构建时必须依据古籍语料的特点。
遵照一定的原则来建库。杨建智囊长西席(2006)提出汉语古籍语料库的建库原则。
一是完全性和穷尽性。即“要收录古籍的全文。而不采取随机择句或择段的形式。
凡可以作为古汉语研究语料的古籍都要收录”;二是准确性和纯粹性。
即要确保电子文本的最大化“保真”。同时将原始语料与剖析语料分开。担保语料的纯粹性。
建库原则同时对古籍语料库汉字异体字与通假字的处理也进行了阐述。
阐明古籍语料库在坚持笔墨原则下。要以当前汉字编码集中的规范汉字为根本进行古籍汉字的整理。
在详细处理时该当考虑到古籍用字中“汉字认同”的问题。并举“户”字第一笔的不同写法为例。
指出要做到保真与灵巧处理的兼顾。1杨师长西席提出的两个原则。很有理论辅导意义。
我们也极为赞许。它们为构建古籍语料库时对原始语料的选取以及语料的精加工供应了辅导。
成为本文构建两汉魏晋南北朝古籍语料库时遵照的基本原则。
语料库的详细构建本文遵照上述的两条原则。在两汉魏晋南北朝古籍语料库构建时。紧张从以下方面进行了方案与建库事情:
1)语料的广泛网络
我们遵照完全性和穷尽性的原则。在原始语料的网络时力求全面。首先是依据《四库全书总目提要》、《汉书·艺文志》确定了两汉魏晋南北朝古籍收录目录。
之后依据古人古籍数字化的已有成果——以《中国基本古籍库》、《国学宝典》、《汉典古籍》三大比较威信的古籍语料库互为参照。对收录目录进行补充修正。制成了《两汉魏晋南北朝古籍表》。
之后按照该表从上述三大古籍语料库中网络原始古籍文献。用以搭建两汉魏晋南北朝古籍原始语料库。
在这一过程中。充分担保了古籍语料库原始文献的广泛性。终极在原始语料库中共收录两汉魏晋南北朝古籍386本。
2)语料的保真处理
完成了两汉魏晋南北朝古籍原始语料库的构建事情后。我们基于原始语料库。
依据准确性和纯粹性的原则。从文本、字符两个方面对所网络的原始古籍语料进行了“保真”处理。
(1)文本方面的“保真”处理
文本方面的“保真”。我们第一步先删去了古籍文本中的标点符号等非中笔墨符。
第二步删去了原始语料库中内容重复的古籍语料。紧张删去了艺文库文学类古籍中诗文别集目与诗文总集目重复的古籍语料。
如蔡中郎集、扬子云集、淮南小山文、班彪文、魏武帝集、魏文帝集、曹子建集等。此外对付原始语料库中不同版本的相同古籍。我们只选取个中一个版本留存。
第三步删去了一些古籍语估中两汉魏晋南北朝之后的注、疏、音义、御制诗文、提要、考证、跋语等内容。
2)字符方面的“保真”处理
字符方面的“保真”。首先为了尽可能地还原古籍文献中的字符。同时进行高效地统计。
我们从汉字收入量和存储大小的角度。稽核了目前紧张的几种汉字编码方案。目前收录汉字字符最多的编码方案为UNICODED12.1。比第二位的GB18030-2005多收录18651个字符。
两者存储单元上相差不大;同时。目前打算机领域常用的汉字编码方案为UTF-8(UNICODE)。
以是我们终极确定了本文古籍字符处理编码方案为UNICODED12.1。
接着。我们在此编码方案下。依据《说文解字》、《康熙字典》及目前学界关于异体字处理的干系理论。
对古籍中的字符进行了包括异体字在内的字符校正。通过完成对原始语料库中古籍文本和字符的“保真”处理。
终极得到用于构建两汉魏晋南北朝古籍语料库和后续统计剖析的古籍276本。共有3694卷。总计20950928个字。
3)语料库的构建
在语料库的c为建库单位。构建了两汉魏晋南北朝古籍总汇语料库。
将该语料库的字频统计数据与古人两汉之前的古籍字频统计数据进行比较剖析;
二是从历时角度。以单段历史期间作为建库单位——分为两汉、三国(魏)、两晋、南北朝。
将古籍按对应建库单位分类1。构建了两汉魏晋南北朝古籍历时语料库。
将各个期间的统计数据进行纵向的历时比较剖析;
三是从共时角度。依照《中国基本古籍库》、《国学宝典》、《汉典古籍》三大威信古籍数据库的古籍分类标准。
将古籍按照不同文体、不同内容进行了分类——分为哲科、史地、艺文、综合4个父类。
父类下细分为思想类、宗教类、政治类、经济类、军事类、科技类、农学类、医学类、历史类、地理类、外国类、语文类、文学类、艺术类、教诲类、生活类、术数类、其他类共18个子类。构建了两汉魏晋南北朝古籍共时语料库。对各个类别的统计数据进行横向的共时比较剖析。
至此。完成了本文语料库构建的全部事情。为了更加直不雅观地理解两汉魏晋南北朝古籍语料库的概况以及展现全体建库过程。
我们制成了《两汉魏晋南北朝古籍语料库概况图》
4)语料库的概况剖析及解释
可以创造。我们基于“保真”处理后收录的276本古籍构建了3大古籍语料库。
下分23个子库。撤除总汇语料库外。整体来看。历时语料库中。收书量最多的是南北朝古籍子库102本。
收书量最少的是三国古籍子库20本。收书量均匀值为69。中值为77。标准差为30。
离散系数为0.44;共时语料库中。收书量最多的是哲科·宗教类古籍子库、史地·历史类古籍子库。
皆为58本。最少的是哲科·政治类古籍子库、哲科·经济类古籍子库、哲科·农学类古籍子库、史地·外国类古籍子库、艺文·艺术类古籍子库以及综合·教诲类古籍子库。
皆是1本。收书量均匀值为15。中值为6。众数为1。标准差为21。离散系数为1.37。
属于高差别。比较历时语料库和共时语料库的这些统计学指标结果。
可以看出历时语料库的样本相较于共时语料库而言。离散程度较小。分布相对均匀。
但单独来看两个语料库的样本极值差异都较大。这紧张是由于两汉魏晋南北朝各期间的韶光跨度、兴衰程度、社会文化、文学样式等多方面都各有差异。
有些子库涌现样本稀疏的情形也不可避免。因此。须要解释的是。在后面的数据统计时有些样本量稀疏的子库。
尤其是共时语料库中一些子库的数据统计结果可能不具有代表性。但亦可做抛砖引玉、管中窥豹之用。两汉魏晋南北朝古籍总汇语料库字频统计与分布。
本章是论文的紧张章节。本章首先对两汉魏晋南北朝古籍总汇语料库(下称“总汇语料库”)进行字频统计。
得到统计结果。然后以累计覆盖百分率作为紧张衡量指标。同时参考贝贵琴、张学涛主编的《汉字频度统计》1中的分级标准。
进行字频分级。将总汇语料库中古籍用字分为核心字区、高频字区、中频字区、低频字区、极低频字区以及一用字区。
接着对总汇语料库整体的字频分布、核心字区的字频分布、一用字区的字频分布三个方面进行剖析。
末了再通过与覃勤在《先秦古籍字频剖析》2中所描述的先秦古籍字频统计结果进行比较剖析。
力求从多个方面磋商和研究总汇语料库字频和分布的特点及影响成分。
总汇语料库字频统计描述
我们基于总汇语料库。编写Python程序从三个方面对其进行了字频统计:一因此不同汉字为详目。
统计了总汇语料库中的字符、字次、累计字次、万分频率、百分累频、均频倍数、覆盖古籍数、覆盖古籍率、笔画数、总字量、单字量、均匀字频等12个紧张结果性数据。
并以汉字字频为纲。从大到小进行排序。制成《两汉魏晋南北朝古籍总汇语料库字频总表》。
限于篇幅。只列出前二十高频字和百分累频中节点位置的字。二因此总汇语料库中收录的276天职歧古籍为详目。
统计了每本古籍中的总字量、单字量、均匀字频、前十高频字等5项数据。并按照每本古籍的总字量多少进行了降序排列。制成《两汉魏晋南北朝古籍总汇语料库字频分表》。
限于篇幅。只列出总字量排名前十名和后十名的古籍数据紧张包括字符、字次、累计字次、百分频率、百分累频、均频倍数等6项数据。
之后按照字次大小进行了降序排列。分别为276本古籍制成了每本古籍的专书字频统计表。限于篇幅。这里只取部分古籍数据制成《两汉魏晋南北朝古籍总汇语料库专书字频样表》。
以作示意以覆盖古籍数为稽核工具可得出。总汇语料库中。共收录古籍276本。
单字字符覆盖古籍数的均匀值为30本。中值为4。众数为1。共涌现5297次。
即有5297个单字字符只在单本古籍中利用。覆盖古籍数最大值为276。占所有古籍数的100%。共涌现2次。
对应字符“之”和“爲”。对应字次分别为470338、208937。对应万分频率分别为224.4950‱、99.7268‱。字序排名分别为第1、第5;覆盖古籍数最小值为1。
标准偏差为53.8645。离散系数为1.7728。相较字次差异而言。17545个单字字符的覆盖古籍数差异较小。
以每本古籍为稽核工具可得出。总汇语料库中总字量排名靠前的紧张为史地·历史类、哲科·宗教类、艺文·文学类古籍。
个中总字量最多的古籍为《魏书》。有114卷。共计965629个字。单字量为5604个。
均匀字频为172.3107;总字量排名靠后的多为杂录鳞爪。也大多收录于史地·历史类古籍中。
个中总字量最少的古籍为《梁州记》。仅190个字。均匀字频为1.4844。而单字量最多的古籍则为《说文解字》。
总字量虽仅有135791个字。但单字量却高达10693个。占总汇语料库单字总量的60.99461%。
这紧张是由于《说文解字》作为字书。本身就收有不同字头9353个。字种多样而丰富;单字量最少的为《武陵记》。属于杂录鳞爪。篇幅短小。单字量为114个。