综述欧阳剑面向数字人文研究的大规模古籍

摘要

传统的古籍开发与应用模式已难以适应人文学科研究的需要,人文学科研究者期待一个技术逻辑和人文逻辑相耦合的数字人文研究范式的出现。本文从古籍文献深层次开发与利用出发,利用新的信息技术与面向数字人文研究跨学科方法,以大规模中国古籍文本为研究对象,采用大数据研究理念,对古籍进行整理、标注、自动分词等处理,以词频分析统计为研究核心,采用数据降噪、基于窗口时间单位的统计分析计算、滑动窗口预测等分析与挖掘方法,采用大数据实时分析技术,实现了实时、在线、立体、可视化、定量分析字词的历史词频分布规律,创建了一个以语言学、历史文献学、历史地理学等人文学科研究为主的古籍实时统计分析平台,可辅助研究者在大量的古籍文献中发现新的模式、现象、趋势等,实现古籍开发与应用模式创新的初步尝试。

前言

数字人文(又称人文计算,HumanitiesComputing)是一个将现代计算机和网络技术深入应用于传统的人文研究的新型跨学科研究领域,数字人文给传统的人文社科研究提供了新的研究方法和研究范式[1]。文本内容挖掘及可视化分析已成为数字人文研究的重要手段。文本挖掘技术是数据挖掘技术的拓展与延伸,与传统结构化的数值数据挖掘不同,文本挖掘是以非结构化的文本数据为挖掘对象,文本挖掘能够实现从海量的非结构性文本中发现新的模式、规则、趋势等[2],为用户非结构化的文本挖掘与分析研究带来便利。新信息环境下,庞大的信息量使人们处理和理解信息的难度大增,传统的文本分析技术难以满足人们现阶段信息浏览及筛选的需要,而可视化技术可以将文本中复杂的或难以表达的内容以视觉符号的形式表达出来,为人们提供一种理解海量复杂文本的内容、结构和内在规律等信息的有效手段[3],使人类视觉认知、关联、推理的能力得到充分发挥,可视化技术已成为帮助人们理解非结构化文本和发现其中所隐含知识的新方法与有效途径。文本内容挖掘及可视化分析目前在很多人文学科领域得到了广泛应用。

国内外面向数字人文

的文本挖掘与可视化分析研究

可视化分析与文本挖掘的结合为探究文本中所蕴含的新知识和复杂的结构模式分析提供了一种有效的方法,可视化分析及文本内容挖掘分析在人文学科的数字人文研究中越来越受到国外学者的重视。年,谷歌与哈佛大学的研究人员共同开发的一套数据库,可以对年至年出版的近万本书籍的单词和短语的使用频率进行统计,从而帮助了解文化和语言的变迁过程,并为人文学科的研究提供新方法[]。—年由德国联邦教育及研究部(BMBF)资助并由德国莱比锡大学古代历史系承担的数字人文项目eAQUA,是在古典文学研究领域的一次尝试,项目通过将计算机科学与古代研究知识相结合,从古代研究的需求及要求出发,通过文本挖掘技术从古典文献资料中抽取特定领域知识[5],并通过开放获取的方式向研究者免费提供这些知识。年,受美国国家人文基金(NEH)资助,北德克萨斯大学与斯坦福大学合作开展了一个历史领域文本挖掘与可视化应用项目,以记载美国历史的旧报纸数据库中的23万页数字化新闻文本为样本,抽取在历史学研究中出现的相应人名、地名等特定信息,并把这些特定信息以可视化形式呈现,辅助研究人员发现历史事件随时间和空间的演变过程及变化规律[6]。年8月,Schich等通过获取公元前年到公元2年间名不同领域的历史杰出人物的出生和死亡地点数据,描绘了这些著名人物的迁徙模式,通过网络和复杂性理论的工具,识别特征模式,确定文化和历史的关联,使用大规模可视化和定量工具从宏观的角度绘制了三千年欧洲和北美的文化史图,获得文化中心发展的历史趋势[7]。Cho等人开发的罗马历史可视分析系统(VAiRome),是一个集时空分析与文本分析为一体的可视分析系统,运用文本分析技术和多种直观的可视化视图,向学者展示了罗马的历史,揭示了其中重要的时间、地点、事件以及它们之间的关系[8],为学者分析研究罗马历史提供了极大便利。

可见,文本挖掘与可视化方法在人文社会科学研究中的应用虽然才刚刚起步,但已显示出广阔的应用前景,为人文社会科学研究带来了新范式与方法,文本挖掘与可视化方法也为古籍深层次利用与开发带来了新的模式。

大规模古籍文本

可视化分析与挖掘背景及思路

1

古籍文本开发利用现状

目前,我国古籍的数字化已经比较成熟,而且也具有一定的规模,以《文渊阁四库全书》《四部丛刊》《中国基本古籍库》《国学宝典》《中国数字方志库》等为代表的古籍数字化文本大量出现,为人们利用古籍提供了极大的便利。但现有的古籍数据库普遍只有检索功能,而统计、分析功能较少,目前的古籍利用普遍以检索浏览为主,只能按原始资料的结构进行浏览,不能将原始的资料信息根据自己的研究需要进行自动重组,也不能深度挖掘潜藏的信息,利用方式还处于比较原始的纸质替代状态,且只有时间的序列性展示,缺少空间的序列性展示[9-11]。国内对古籍文本的利用与开发研究基本上还是采用传统的研究方法与模式,缺乏新的人文研究范式及方法,导致当前规模庞大的古籍文本数据与较低的古籍深度利用率之间的矛盾比较突出。

随着E-考据及数字人文等新理念的出现,传统古籍利用与开发模式的局限性越来越明显,更多的学者已开始认识到古籍数字化带来的不仅仅是庞大的古籍存储,“数字化”为技术与人文的合流构筑了新平台,可通过技术逻辑和人文逻辑相耦合的“数字人文”的研究,构建可持续完善和丰富的数据集和分析工具,充分利用新的信息技术与跨学科方法对古籍进行深层次的分析与挖掘。

2

大规模古籍文本可视化分析与挖掘思路

埃雷兹·艾登等在《可视化未来数据透视下的人文大趋势》专著中以“谷歌图书”项目为背景,通过多万本电子书讲述了大数据在研究历史文化、人类语言、社会名望、群体记忆等方面的重要作用,大数据对社会科学的变革意义凸显,体现了科学与人文之美[12]。大数据时代的各种思潮和视角在不断涌现,大数据作为一种全新的数字化研究资料,与传统资料相比,其样本量具有庞大、丰富及时间跨度大等特点,为社会科学经典理论的验证和拓展提供了更大的研究空间[13]。传统人文学科的实证研究强调在理论的前提下建立假设,大数据时代重在发现知识与现象,在没有理论假设的前提下,从海量的数据中发现隐藏在数据中的模式、知识和趋势,从而帮助人们揭示事物现象与发展规律[1],大规模的古籍文本扩大了人文学科资料的范围,提供了人文学科研究新的研究空间,拓宽了古籍利用的研究领域。

数字人文的出现促进了人文学科与技术的融合,为古籍数字化的深度开发与利用提供了新的理念与独特的创造性思维,将古籍文本集成化、可视化,使古籍利用融资料查询、计量分析、知识发现等功能为一体,使得数字化古籍深度开发与利用成为可能。古籍资源涵盖面广,包含历史、地理、文化以及社会等诸多方面,因此,数字人文研究中的许多前沿实践都能为古籍文本深度开发利用所借鉴,运用人文计算、可视化分析及文本挖掘等方法,对大规模古籍文本进行可视化分析与挖掘,为语言学、历史文献学、历史地理学等人文学科研究探索新的研究范式与方法,在此基础上,为研究者提供一套方法较为科学、客观的分析工具与平台,挖掘古籍在传统人文学科研究中的新空间和新的增长点。

大规模古籍文本可视化分析与挖掘以古籍文本为基础,采用大数据的研究理念,通过大数据实时分析技术,以词频分析为手段,采用数据降噪、基于窗口时间单位的统计分析计算、滑动窗口预测等分析与挖掘算法,定量分析字词的历史词频分布规律,对古籍文本中的人物、历史事件、地名、官职、称谓等实体进行抽取及关系的建立,呈现每个时期古籍文献共时性的空间分布与变化,从时空二维立体地展示语言、文化、历史等的发展变化。

大规模古籍可视化分析与挖掘研究

1

数据来源及处理

数据已成为数字人文的基础和核心,古籍文本的收集、整理是本研究的基础,本研究古籍文本主要有网络数据采集与专业数据库文本获取两种。目前,网络上分布着大量公开的古籍文本。为了收集到尽可能多的古籍文本,本研究通过设计一些爬虫软件对特定的网站或专业数据库进行数据采集,对于离线版的专业数据库则通过其他技术手段进行提取。目前,本研究收集、整理了种古籍(总计8.35亿字),时间跨度上从上古到民国,文献分布比例为:秦及以前0.69%,汉1.85%,三国、晋2.71%,南北朝、隋、初唐7.59%,唐中至五代十国1.50%,北宋27.80%,南宋1.16%,元13.22%,明17.3%,清20.1%,民国2.11%,未进行作者及文献朝代核对的3.53%。从种类上来看包括经、史、子、集等文献,其中经部占6.37%,史部占25.3%,子部占31.32%,集部占28.6%,未进行分类的文献占8.2%,形成了一个比较综合、全面的古籍语料库。

数据的规范及一致性是分析及统计准确性的重要前提。由于采集的数据格式包含PDF、WORD、HTML等多种形式,为了研究的需要,通过数据抽取的方式提取其中的文本,并且把UTF-8、Unicode、UTF-16BE、GBK等编码转换成统一的Unicode码;同时,采用厦门大学、教育部语言文字应用研究所、北京师范大学联合开发的“汉字简繁文本智能转换系统”进行简繁异体字转换,形成统一的简体字[15]。

词频分析是文本挖掘中的一种重要研究方式,也是文本可视化的一种重要模式,Google实验室推出的BooksNgramViewer就是以词频分析研究为基础[16]。词汇是古代汉语研究中的重要内容,本研究对古籍文本内容进行可视化分析与挖掘主要是通过词频来进行,因此,分词是古籍文本分析与挖掘的前提。古代汉语的词汇有一个长期的从单音节词向双音词及多音节词演化的过程[17]。古代汉语在词汇和语法等诸多方面与现代汉语不同,尽管现代中文信息处理技术已经在很多领域取得了快速发展,然而这些研究成果主要针对现代汉语,现代汉语已有的分词研究成果并不能完全照搬到古代汉语分词领域中。与现代汉语分词相比,古籍分词所需要的词库与训练语料及语法规则基本空白,因此,词库与训练语料构建是分词的关键与基础,词库建设更是核心。

王力[18]、史存直[19]、潘允中[20]等对古代汉语词汇的发展过程及特点做了比较深入的研究,基本反映了古代汉语词汇发展的总体面貌与特点,从中可知对古籍文本的处理必须遵循古代汉语词汇的发展特点。在缺乏一定规模的断代词典的情况下,大规模地对不同朝代的古籍文本进行分词,准确性难以保证。采用分朝代、分词汇表的方式切分才符合古代汉语词汇的发展规律,即切分不同朝代的古籍文本语料时采用相应朝代的词汇表,这是本研究进行古籍文本语料切分的主要思想,这样可以最大程度保证古籍分词的准确率。

古代汉语的发展是一个渐变的过程,无泾渭分明的分水岭,就汉语史分期而言,学者所持立场不同。日本著名汉学家太田辰夫把汉语史的发展分为上古、中古、近古、近代和现代五期[21],王力从汉语语法、语音变化角度出发,在《汉语史稿》中提出了古代汉语分上古、中古、近代和现代四阶段说[22]。具体到各个阶段的上下限,学者们众说纷纭,目前没有确切的意见[23-26]。为了系统处理方便并结合相关专家建议,笔者根据古代汉语词汇发展的特点、断代词典及词汇专书的研究现状,将古籍文本切分为四个时间段,如图1所示。考虑到词汇使用的连续性,词库构建采用分段叠加的方式进行。所谓分段叠加是指后一个词库在前一个词库的基础上通过添加当前朝代的新词汇的方式进行累加,分词时按古籍文本的年代分别调用相应词库,比如:当待分文献属于战国时,则采用词库1来分词,当文献属于元朝时则采用词库3来分词。

图1词库分段叠加的构建方法

目前,对古籍分词的研究还主要集中在就某个特定时间段的分词[27-28],在缺乏一定规模的断代词典的情况下去进行分词难以保证准确性。古代汉语词汇史研究一直受到古代汉语研究者的







































白癜风怎么治好
得了白癜风要怎么治



转载请注明:http://www.beicanshijie.com/sxnr/943.html