不论是古人遗留下来的错,还是当代因为工程大而当时又没有借助计算机手段所造成的重出,这些重出已经出现,像苏轼、欧阳修、王安石、黄庭坚等著名诗人的诗作与他人重出均在四十首以上。稍不留心,就会张冠李戴。所以《全宋诗》推出后,不少人开始做清理工作,写了一篇又一篇的查到“重出诗”的文章。众多学者花多年功夫查到了二百多首重出诗,每查到一首,都是一件当时看来功德无量的事。
计算机能否将重出的全都标记出来?程序员会说,非常容易,就用最简单的“一一对应”检索就可以了,以第一首诗为“字符串”,只不过是长了点的字符串,然后对全部的诗进行检索。可问题是这些重出的诗,其“字符串”并不是完全一样的,总会有一两个字不一样,这时,你建的繁简字表、异体字表、通假字表都没有用武之地了。因为不一致的地方并不是繁简字、异体字、通假字问题,而是非常不确定的。如苏轼诗《入馆》:“黄省文书分道山,静传钟鼓建章闲。天边玉树西风起,知有新秋到世间。”(《全宋诗》第十四册,第9135页)也出现在张耒的名下《秋日有作寓直散骑舍》:“黄省文书分道山,静传钟鼓建章闲。天边玉树西风起,知有清秋到世间。” (《全宋诗》第二十册,第13275页)最后一句,一作“新秋”一作“清秋”。
这就要使用“膜”的检索方式,而这膜是动态的,取任一首诗,计算其相关可计算的部分,建成数字模型,用“模式匹配”的方式去过滤全部其他的诗作,并且可以设定一定的容错值。两个“膜”的相似度达到一定的值后,就可以将其标记为重出诗。这样,计算机就可以在一两分钟内,全部标记出《全宋诗》近五千首相互重出的诗。
至此,计算机仍然是检索时代的产物,不过是真正的高级检索,是用“模型”代替“字符串”的检索。
完成了《全宋诗分析系统》,我们可以用它来做很多的学术研究。如宋代诗人中谁用“酒”字最多,其实不用计算机我们都可以知道是谁,陆游,因为他的诗最多,自然几乎所有的常见字,都是他用的最多。如果以比率来算,去除仅存一两首的,应是敖陶孙。而我们还会遇到一个严重的问题,也就是说,这些诗人用“酒”字,是真正意义上的“酒”吗,是不是地名中的“酒”,如陆游的“张掖酒泉开郡县”中的酒?而他们没有用酒,却是写饮酒的诗,如用了“杜康”、“佳酿”、“琼浆”等等。
因此,计算机为学术研究提供服务,需要更为复杂的检索。为了检索格律诗,我建了格律诗的数字模型,为了检索重出诗,我建了以诗为单位的数学计算模型。为了检索和研究宋代诗人和酒的关系,和酒文化的关系,我们需要做什么呢?依然是建设模型。
比如,“酒”模型,我们可以考虑把各种酒的称法,各种酒的品牌都归到“酒”字,这“酒”字的表中,有酒的别名,有酒的牌子,有酒的产地,有酒的生产厂家。那么,当我分析查找酒的时候,并不一定要用酒字,而包括了可以代指酒的所有项。这看起来和繁简字、异体字、通假字表差不多。但字表是封闭的,这酒模型则是开放的,其中的任何信息点都可以向外链接出去。它本身也是可以向上比如“饮料”链接。如果查询分析“饮料”,就会包括“酒”,也包括“茶”,再向每“类”的子系统中包括“杜康”“佳酿”“毛尖”“龙井”等概念扩展。如果“饮料”表的上层是“食品”,与之并列的东西就更多。这时,可以要求从文献中提取与“食品”相关的段落或句子,并不是要找”食品”二字,而是包括酒茶麦米盐等等各种可以吃的东西。
这样的关联,类似一个“概念体系”,因为“概念”是从具体物抽象出来,是思维推理的基础,是最基本的思维单元,20世纪90年代,计算机理论家们便借用了一个哲学词,叫ONTOLOGY,我们就顺着哲学词汇的翻译方法,称之为“本体”。将酒、茶、饮料、食品等等全都装进去的巨型表,我们称之为“本体库”。
建设本体库,就是建设模型库。本体是最小的模型。为了让计算机能够为我们提供更广泛的学术支持,我们就要建设的各种各样的本体。如“人物本体”,每个人物的本体,基本上要有姓、名、字、号、谥号和各种各样的别名,生卒年,籍贯、远祖和为官地,出身,父母兄弟妻子儿女,著作等等。每个具体的本体,我们称之为“本体元”,本体元组合成本体库,而这库因为是开放的,任何一个项又可以跨到别的库去。如出生地、为官地,就要跨到“地名本体库”中去。他的著作则跨到“文献本体库”中,文献本体中的文献藏地,又联接到地名本体上。这样,我们在对比较大的文献量进行分析时,会找到非一般检索可以得的数据。如面对《资治通鉴》,我们可以要求计算机报告唐代皇族世系关系,这样,以李渊为根的一个大型树状结构就会自动生成,他的儿子们、儿子们的儿子们,形成枝叶,不仅如此,再由母系“戚”的关系联络到李氏以外的人物,一个唐代社会结构图也会由此而产生。如果我们再扩充文献量,放进正史、墓志、地方志、家谱、年谱、笔记等等文献,那么就会生成家族谱系、部族迁徙等图表,可以生成地理环境与文化、经济、军事等关系的各种各样的详细报告。可以从多个学术面、以多种视角来重新审视中国历史,如同在读一位史学界的超级大师的著作。
讲到这里,我们发现,计算机不是在为我们检索了,而是自己在做学问,做那种非常大,而非一般人力可以做的学问。似乎它不再是被动应答的仆人,而变成了主动提供知识服务的老师。它所提供的知识服务又是人所无法完成的,它有着超强记忆,永不会忘记任何一个细节,对它所拥有的文献采用穷尽式的搜罗,不会有任何遗漏。
计算机在人文学科领域正是这样发展的。从检索时代发展到分析时代,由被动的应答到提供知识服务。这必将会对我们的传统文化教育、学术研究产生颠覆性的影响。
继续浏览:1 | 2 | 3 | 4 | 5 | 6 |
文章来源:中国文学网 【本文责编:思玮】
|