首页 理论教育电子文献检索的注意事项及中国古典文献学

电子文献检索的注意事项及中国古典文献学

【摘要】:一般电子文献检索,只能是直接对应性的匹配检索,即只能检索与所输入的字词完全对应匹配的资料,或者说只能检索到包含有所输入字词的资料。这里又有一个省时的技巧问题,应尽量避免检索字词的“重复率”。如《四库全书》电子全文检索版中输入“寓意”二字,可检索到1525个匹配,这里绝大多数不是我们所要查询的晏殊的《寓意》,需要一条条点击原文阅读后进行识别,这样还是比较浪费时间。

一般电子文献检索,只能是直接对应性的匹配检索,即只能检索与所输入的字词完全对应匹配的资料,或者说只能检索到包含有所输入字词的资料。如检索李白的资料,输入“李白”二字后,只能检索到含有“李白”二字的资料,而不能检索到与李白相关但没有“李白”二字的资料。为了尽可能检索到自己所需要的资料,要注意输入不同的字词句从不同的角度检索。

要检索人物资料,既可输入其名进行检索,也可输入其字号或别称甚至并称等进行检索。如在《四库全书》电子全文版中,输入“李白”二字,可检索到7024个匹配(即含“李白”二字),分布在4172卷的资料中;再输入“太白”二字,可检索到24613个匹配,分布在8302卷中;再输入“谪仙”和“李杜”二字,可分别检索到3261个和2509个匹配。这些资料,其中有些有重复,去其重复,就可以比较完整地搜罗到所需的李白资料。还要注意的是,这些含“太白”、“谪仙”二字的资料中,有些并不是指李白,而是指别的专名或他人,所以还需要对检索到的资料逐条识别,以确定其中哪些是属于自己需要的资料,哪些是“同名”而实不同的资料。同样的道理,要检索苏轼的资料,可分别输入“苏轼”、“东坡”、“子瞻”、“苏黄”等进行多角度的检索。

如检索作品资料,要注意从文题(诗题)和作品正文等不同角度进行多次检索。因为作品的题目常因版本不同而有差异,如果只输入一个题目,就无法检索到所有资料;又由于版本不同,作品的文字也有差异,所以要多次输入作品不同文句或字句进行检索。比如,晏殊的名诗《寓意》,一作《无题》,其中有名句“梨花院落溶溶月,柳絮池塘淡淡风”。要查这首诗前人有哪些评论资料,哪些典籍选录过,既可以分别输入“无题”和“寓意”进行检索,也可以输入“梨花院落溶溶月,柳絮池塘淡淡风”两句中任一词组进行检索。这里又有一个省时的技巧问题,应尽量避免检索字词的“重复率”。比如,“寓意”二字,重复率就可能比较高,晏殊有诗题《寓意》,其他作品中也有大量的“寓意”二字。如《四库全书》电子全文检索版中输入“寓意”二字,可检索到1525个匹配,这里绝大多数不是我们所要查询的晏殊的《寓意》,需要一条条点击原文阅读后进行识别,这样还是比较浪费时间。如果我们输入“梨花院落溶溶月”一句七字,就可以检索到29条直接的资料,即有《类说》、《事实类苑》、《青箱杂记》等29种著作选录或论及这首诗。再输“柳絮池塘淡淡风”一句,则只检索到28条匹配的资料,这表明有的书只提及上句而没有下句。如果只输入“柳絮池塘”四字,可检索到52条资料,其中有的并不是晏殊的诗句,而是别人相同的诗句。一般而言,如果是要精确检索,即检索的目标非常明确,那么输入的字串越多越好;如果是模糊检索,对检索的目标事先并不很清楚,输入的字串就越少越好。输入检索的字越少,检索的结果范围就越大,当然重复率就越高。如何处理好既要避免检索的结果有遗漏,又要减少重复率以省时间,这要根据具体情况而定。应注意不断摸索,随时总结经验并加以调整。

还需要特别提示的是,不论是检索光盘还是网络中的资料,如果要正式引用,务必要校核书籍的原文。因为电子版资料在录入时难免有错误,而版本的差异,各本文字原有异同。特别是《四库全书》检索版,原书中的随文夹注,拷贝进文档后,夹注中的文字自动移至文末,这就改变了原文的次序,需要校核改正,才能恢复原书面貌;有些手写体字形有变异,拷贝后如果识别不出来,常常会出现空白,这更需要校补。比如,《四库全书》本《玉海》卷五十二《庆历崇文总目》条,原文是:

慶曆元年十二月己丑,翰林學士王堯臣等上新修《崇文總目》六十卷(堯臣與聶冠卿、郭稹、吕公綽、王沫、歐陽修等撰,以四館書并合著録。《中興書目》云六十六卷,當考。《國史志》:《崇文總目》六十六卷,序録一卷,多所繆誤。《長編》云:總目亦有可取而誤棄不録者)。其書總數凡三萬六千六十九卷,自太祖平定四方,天下之書悉歸藏室。太宗、真宗訪求遺逸,小則償以金帛……

而从四库电子版中拷贝出来的结果却是:

慶曆元年十二月己丑翰林學士王堯臣等上新修崇文總目六十卷其書總數凡三萬六千六十九卷自太祖平定四方天下之書悉歸藏室太宗真宗訪求遺逸小則償以金帛堯臣與聶冠卿郭稹吕公綽王沫歐陽修等撰以四館書并合著録中興書目云六十六卷當考國史志崇文總目六十六卷序録一卷多所繆誤長編云總目亦有可取而誤棄不録者。

又如,从同卷拷贝出下列一段,即出现一个空白框:

辛酉命翰林學士張觀知制誥李淑宋祁將館閣正副本書□詳定其存廢偽謬重復并從删去内有差漏者令補寫校對。

其实这个空白框,原文作“看”,只因“看”字第二横写成了两点,故电脑无法识别,只好用空白框代替。如果拷贝后不予校核,就会出现不应有的错误。因此,无论引用什么来源的资料,都要养成核实原文的习惯。