“中国基本古籍库”“鼎秀古籍全文检索平台”“中华经典古籍库”已成为当下中国文史研究及传授教化必备的三大古籍全文资源库,各具特色和上风,相得益彰,形成三足鼎立之势。
从利用者角度来看,衡量数据库优长的紧张成分为大容量、准确性、便利性、整合性、智能性。现根据长期利用体验,笔者从以上诸成分对三大古籍全文数据库予以比拟。
数据库(Database)是按照数据构造来组织、存储和管理数据的仓库。用户对数据库的紧张需求是大容量,越大的容量越能吸引尽可能多的用户,并知足其尽可能多的数据需求。
表1 三大数据库容量比拟
根据表1统计,“鼎秀古籍全文检索平台”容量最大,以书种数而言,是“中国基本古籍库”的两倍、“中华经典古籍库”的三倍,超过“中国基本古籍库”和“中华经典古籍库”的容量总和。
以大容量作为衡量数据库的第一指标,就决定了各大数据库之间的竞争,首先表现在数据扩展的速率以及容量的绝对领先上。截止目前,“中国基本古籍库”已升级到V8.0版,“中华经典古籍库”也以每年一次的扩展速率更新到第10期,“鼎秀古籍全文检索平台”现则已升级到2.0版,名为“文心阁古籍数据库”,在原“鼎秀古籍全文检索平台”21,000种古籍根本上又增加了10,305种,古籍总数为31,305种,仍以数据扩展速率和超大容量保持绝对领先上风。但据《中国古籍总目》所著录的现存20万种中国古籍的总量来看[2],古籍数据库还有很大的提升空间。
如果说大容量是衡量数据库的第一外在要件,那么准确性则是衡量数据库的第一核心要件。换言之,利用者会为数据库的超大容量吸引,但真正决定其对数据库的正面评价及连续利用的紧张成分则是数据库的准确性。
表2显示,“中华经典古籍库”的准确性最高。“中华经典古籍库”所收录数据资源为中华书局、凤凰出版社、华东师范大学出版社、上海书店出版社、上海字画出版社、浙江古籍出版社、浙江公民美术出版社、西泠印社出版社、天津古籍出版社、齐鲁书社、三晋出版社、巴蜀书社、辽海出版社、三秦出版社、岳麓书社、大象出版社等多家专业出版社已出版的古籍整理本,其纸本图书在传授教化和科研中已被广泛征引,学术性已得到学界普遍认可。“中华经典古籍库”以这些古籍整理图书为原始文本,利用打算机技能进行了精准的数字化编辑事情,对每一个标准字符集外的古籍用字都逐一处理,并修正了原书中的一些缺点,因此其数据质量相较纸版图书更优,且该数据库供应原版图书图片与数据库笔墨予以全面对照,页码逐一对应,研究者可以放心地复制、引用干系文献,极大地节省了研究者录入、复核文献时所耗费的精力和韶光,而可将紧张精力放在文本研究上。
表2 三大数据库准确性比拟
“中国基本古籍库”和“鼎秀古籍全文检索平台”二者性子较类似,所收数据均为先秦至民国的各种古籍文献的影印本图片及OCR数据。由于影印本的漫漶、模糊、缺损、页面误排等,只管OCR数据经由了初步的人工核对,但其数据的准确性仍亟待提高,仍须要利用者与影印本图片仔细核对才能放心利用。同时,研究者除了仔细复核OCR数据外,还要进行自行断句、标点。因此,利用这种未经仔细订正、整理的古籍OCR数据,既哀求利用者要足够细心,又哀求利用者有足够的小学句读能力。综合来看,与“中华经典古籍库”比较,“中国基本古籍库”和“鼎秀古籍全文检索平台”的数据在准确性和便利性上都存在较大的不敷和差距。这也是“中华经典古籍库”后来居上,被浩瀚研究者青睐的主要缘故原由。
在确保数据库准确性的同时,数据库的便利性真正决定了用户的利用体验。从用户角度来看,数据库的便利性紧张表示在页面简洁友好、功能多样实用、限定成分较少。
表3 三大数据库便利性比拟
在基本功能方面,三大古籍数据库较为相似。个中,“中国基本古籍库”和“中华经典古籍库”均有纠错或修订功能,具有一定开放性和纠错能力,在理论上为完善数据库供应了技能保障。然而在实践操作层面上,却因短缺灵巧实用的勉励方法,用户在纠错或修订方面的积极性并不高,使此项功能的实际效果大打折扣。从数据库开拓者角度看,每项开拓的功能都意在为用户供应便利,也终极为自身发展供应切实保障。如果用户对某些主要功能的利用度和参与性不高,数据库开拓者就须要反思和采纳相应的改进方法了。
在特色功能方面,“中华经典古籍库”的引用功能极其便利,可以同时天生引用文献及引用格式(包括作者、书名、卷次、出版社、出版韶光、页码等详细信息),这对付研究者来说极为便利实用。同时,“中华经典古籍库”还有读者反馈和在线客服,供应了便利的反馈渠道,便于利用者及时咨询,也便于数据库开拓方及时创造问题。
在拓展功能方面,“中华经典古籍库”所在的“籍合网”平台还有纪年换算、自动标点、笔墨识别等工具。这些功能非常实用,进一步增加了数据库利用的便利性,也无疑提升了用户体验。以自动标点为例,“籍合网”的“自动标点”的准确率可达97%以上,研究者只需将紧张精力放在个别缺点标注处的改动上即可。“自动标点”已成为古籍整理者的得力助手,“自动标点的初加工+专家的仔细审核把关”将成为古籍整理的一种新通畅办法。此外,“中华经典古籍库”中还有一种强大的拓展功能,即其古籍图书资源均已经研究者威信、深度整理,其标点、断句、分段、注、疏、眉批、专名、注释、系年、考证等研究成果可以直接促进中国古代文史传授教化与研究,可供师生借鉴、整理、汇总以往的古籍整理成果,展开进一步的科研事情。
如何在保护自身数据安全和复制限定之间保持最佳平衡,也是数据库今后发展的一个主要问题。在复制限定方面,三大数据库为保护自身数据安全、防止大量复制数据,均有明确的复制字数限定。相对来说,“中华经典古籍库”最为宽松。
综合基本功能、特色功能、拓展功能及资料复制、引用上的极大便利性,“中华经典古籍库”一跃成为目前用户体验最好的古籍资源库。
数据库就所收数据而言,其本色是一个数据内网,只管内部数据可以做到足够大,但受到技能、硬件、财力等客不雅观成分的限定,仍仅能涵盖各个学科的有限部分。因此,只有与干系数据库优化整合、关联起来,尽可能多地组合成数据库集群,才能知足尽可能多的用户尽可能多的数据需求。这也就哀求数据库必须有一个大平台作为依托,或者至少要与干系数据库组成数据库集群。
表4 三大数据库整合性比拟
从表4可见,“中华经典古籍库”依托中华书局创办的“籍合网”平台,以中华书局等16家专业出版社古籍图书为核心数据,同时借助“籍合网”平台组成以“中华经典古籍库”为核心的数据集群,下辖“中华经典古籍库”“历代进士登科数据库”“中华古籍书目数据库”“历代石刻总目数据库”“晚清民国文献平台”“中华石刻数据库”“陕西文献集成数据库”“西南联大专题数据库”“中华善本古籍数据库”“历代教外涉佛文献数据库”“中华文史工具书数据库”“中华书法数据库”等26个专业数据库。[3]这些数据库中的绝大部分都是由“籍合网”供应平台和技能、由专家供应干系数据互助而完成的。这一数据库互助模式可谓各尽所长、双赢互利,具有极大的整合再生空间,专家既是数据库的设计者也是利用者,用户既是数据库的利用者也是潜在的互助者。这对付提升数据库的科研性和用户的参与度都至关主要,也是促进数据库良性、快速发展的秘密武器。显然,“中华经典古籍库”所依托的“籍合网”平台走的是一条与专家密切互助、不断天生专题研究性数据库的发展道路。
“中国基本古籍库”依托“爱如生典海数字平台”,组成以“中国基本古籍库”为核心的数据集群,下辖“中国基本古籍库”“四库系列数据库”“历代诗文集总库”“历代教诲文献库”“历代行政文化库”“中国方志库”“中国谱牒库”“中国金石库”“中国丛书库”“中国类书库”“中国辞书库”“中国史学库”“中国儒学库”“中国兵学库”“中国法学库”“中国医学库”“中国艺术库”“中国俗文库”“佛教经典库”“玄门经典库”“科技史料库”“敦煌文献库”“明清档案库”等23个专业数据库。显然,“中国基本古籍库”所依托的“爱如生典海数字平台”走的是一条大种别型、全涵盖式的发展道路。
“鼎秀古籍全文检索平台V2.0”,即“文心阁古籍数据库”,以其本身为平台,其本色也是一个数据库集群,下辖“四库全书”“四库存目丛书”“四库分类书”“四库禁毁书”“四部丛刊”“四部备要”“日本古典书本库”“古本小说集成”“古本戏曲丛刊”“古今图书集成”“中国地方志”“中国地方志续集”“敦煌史料”“明清史料”“玄门文籍全书”“医药汉文文籍全书”“六府文籍全书”“清代诗文汇编”“永乐大典”“明代别集丛刊”等20个专业数据库。显然,“鼎秀古籍全文检索平台”依托自身平台,走的是一条丛书型的发展道路。
总之,在数据整合性方面,三家古籍数据库各有上风与特色。相较而言,“中国基本古籍库”与“鼎秀古籍全文检索平台”偏于资料性,在规模效应上具有较大上风;而“中华经典古籍库”偏于研究性,在互助与创新上具有较大上风。
智能性
进入21世纪,数据库培植取得了长足的发展,无论是数据的丰富性,还是检索技能的便利性,都让人叹为不雅观止。在此根本上,利用者对数据库的智能性哀求渐增。所谓人工智能性的哀求,实在便是希望从数据库提升到知识库,即“由数字化向数据化即知识库的转变”,乃至明确提出构建“中国古典知识库”的建议:“数字化和数据化的最大差异是,前者仅可供应大略的字词检索,后者则具构造化、关联性,可自动进行知识再生。辅之以相应的工具,借助此前中外统统中国古典学的研究成果,在保障古籍文献内容完全性及内部逻辑性的根本上打破文献原有构造,周密地设定主题词表,专业地提取各种实体,如年代、地域、人物、事宜等,构建实体的干系属性及不同实体间的关系,通过这些实体及相互关系对文献进行深层组织和知识管理。”[4]
因此,知识库是数据库的高等版,即在原有数据资源的根本上进行大规模的数据调取与剖析,以知足用户更多研究性的综合需求。以笔者研究工具“张溥”为例,在目前三大古籍全文数据库,可以全文检索到有关“张溥”的史传、条记、诗文、年谱、注释等。但作为研究者,我们更希望通过综合检索后得到张溥的平生(包括史传、年谱、行踪等)、作品(包括他人评点、交游唱和等)、社会关系(包括家庭关系、社会交游、学术师承等),并希望以较好的办法呈现出来。从技能角度来说,建立知识库的技能难度并不大,紧张是标注的事情量较大,同时根据用户个性化的需求进行合理的检索设置。
目前已有一些数据库逐步发展为这种知识库型的数据库。如由美国哈佛大学费正清中国研究中央、中国台湾“中研院”历史措辞研究所与北京大学中国古代史研究中央共建的“中国历代人物传记资料库”(CBDB),利用其数据可做四种数据剖析:地理空间剖析(Geospatial Analysis)、社会网络剖析(Social Network Analysis)、群体研究统计剖析(Prosopographical Analysis, Statistical Analysis)、文本分析和标记(Textual Analysis and Markup)。[5]又如浙江大学徐永明教授及其团队打造的“聪慧古籍平台”,作为人机交互式聪慧数据共享平台,借鉴知识图谱理念,综合利用大数据技能,将中国古典文献和研究成果图谱化、智能化。[6]
这些文史专业数据库的新发展及所取得的新造诣,值得三大古籍全文数据库在智能性方面借鉴参考。从这个角度来看,三大古籍全文数据库正在数据容量扩展的路上发达提高,而如何整合现有数据资源,顺势提升为知识库,则或是三大古籍全文数据库未来发展方向的紧张选择。
末了,须要强调的是,正如张岂之师长西席所指出的:“对付从事人文和社会科学传授教化和研究的西席,不但须要提高自己的人文素养,而且应通过适当的办法加强对科学技能的认识。”[7]积极关注并充分利用各种数据库,正是当下文史研究者秉持“人文精神与科学精神的高度统一”理念、切实推进干系研究的有效科学技能。
注释
[1]荀况撰,楼宇烈注:《荀子新注》,北京:中华书局,2018年,第4页。
[2]中国古籍总目编纂委员会编:《中国古籍总目·经部·序言》,北京:中华书局,2012年,第3页。
[3]数据截止2022年10月31日。
[4]张蕾:《全国人大代表:呼吁构建“中国古典知识库”》,《北京日报》2020年5月28日,第9版。
[5]佚名:《玩不转大数据?历史学家来教你|CDBD的故事》,https://www.sohu.com/a/131820815_312708?qqpf-to=pcqq.group,2017年4月3日。
[6]佚名:《重磅上线!
浙大“聪慧古籍平台”开启古籍阅读新模式》,https://3g.163.com/local/article/GOJL1T8V04379D64.html,2021年11月12日。
[7]张岂之:《我理解的人文教诲不雅观》,陈战峰、夏绍熙编:《张岂之教授论学书信选》,南京:江苏公民出版社,2017年,第345页。