标题:论文解读 | 面向机器学习的中世纪手稿转录
一、翻译全文
原标题:Transcribing medieval manuscripts for machine learning
原文链接:Journal of Data Mining and Digital Humanities
摘要
本文聚焦于中世纪手稿的转录工作。尽管转录问题长期以来一直引起中世纪研究者的兴趣,但在印刷版次时代,除了归一化(normalisation)之外,几乎没有其他可行的选择。这一过程的自动化,即手写文本识别(HTR),使得新型数字文本的创建成为可能,同时也凸显了在学术实践中对转录进行理论化的必要性。我们在不断变化的文本技术背景下,反思了不同的转录概念。此外,基于我们对中世纪拉丁文《圣经》的研究,我们提出了定制转录方案的一般准则,主张这些方案的设计必须考虑到具体的研究问题和学术最终用途。由于我们对抄写员在手稿制作中的贡献特别感兴趣,我们的转录准则旨在捕捉不同文本见证本(witnesses)之间的缩写和拼写变异,以便用于下游的机器学习任务。在文章的最后部分,我们将讨论几个例子,展示HTR创建的转录如何让我们在中世纪手稿中大规模地解决新问题,例如跨见证本的文本差异、预测单个手稿中抄写员笔迹的变化,以及对个人和区域抄写特征进行画像。
关键词
巴黎圣经;拉丁圣经;手写文本识别(HTR);十三世纪欧洲;偏差;转录准则;计算文本分析
I. 引言
在二十世纪初,许多学者的工作重点是准备文本的校勘本和翻译,这些文本此前只有少数能够阅读古老笔迹且有条件亲自查阅的专家才能接触到。这些校勘本和翻译本身就是有价值的学术成果,其重要性足以证明所投入的精力和时间是值得的,它们为中世纪研究的几代学术奠定了基础。另一方面,对于历史档案收藏中的许多材料——包括已经数字化的收藏——中世纪研究者只创建了部分转录,甚至根本没有转录。近年来,随着数字化技术的发展,获取中世纪文本材料的途径大大增加,我们可以设想未来几十年许多新的研究方向。档案自动化的新前沿对中世纪研究,特别是我们的转录方式提出了什么挑战?我们已经拥有了成熟的方法来修复几代中世纪作品的印刷版本,例如光学字符识别(OCR),但我们可以问自己,这些是否是我们未来希望用于中世纪文本计算分析的那种文本。相反,我们建议的一条出路是“回到写字间(scriptorium)”,我们的意思是阐明系统的转录准则,允许从手稿见证本中捕捉多层数据,而这些数据通常会被某些编辑形式的归一化方法所丢失。如果我们同意归一化选择实际上是编辑选择这一观点,那么我们的具体方法就是在转录过程中尽可能少地行使编辑决定权。我们认为,任何给定项目中采用的转录准则的特殊性取决于其最终用途。在图书馆和档案馆中,高度归一化的转录标准可能有助于普通读者的关键词识别和内容发现,但具有语文学思维的研究可能会选择避免归一化的更具体标准。事实上,未来的工作流程可能会允许从数字化的手稿叶中衍生出多种转录,并将其链接起来。本文的视角是中世纪研究专家社区的视角,他们有兴趣为抄写员特征的计算研究创建在语文学上忠实的外交级转录(diplomatic transcriptions)。在本文中,我们认为,如果中世纪研究者希望追求由先进计算研究促进的新型分析,我们需要对转录模式进行理论化,不仅是为了人类阅读,也是为了机器处理。
II. 转录中世纪手稿的实践:极简史学
在本节中,我们将简要讨论中世纪文本的编辑和出版商处理我们今天通常使用的书写系统与手稿中发现的书写系统之间差异的不同方式。这并不是要进行详尽的历史评估,而是为了方便地定位我们关于转录的讨论。手写文本识别(HTR)的实践正在快速发展,并扩展到手稿研究和书籍历史的许多不同领域。我们将通过参考我们在十三和十四世纪拉丁文《圣经》自动转录方面的具体工作并使用纯文本输出来构建我们的讨论,但我们要相信,我们关于转录的情境化讨论将使其他可能考虑将自动文本创建用于其他用例的社区受益。
2.1 归一化的历史化
古籍的转录既是一项理论工作,也是一项实践工作。我们都继承了多种转录方法,但用于手写文本识别(HTR)的机器学习系统(如Transkribus、eScriptorium以及未来无疑会出现的其他系统)将与处理手稿和档案文件相关的关键问题推向了前台,要求我们仔细思考转录方法。虽然关于文件转录标准的历史争论通常集中在如何最好地制作印刷或数字版本上,但鉴于HTR等新研究基础设施的出现,这些问题需要更新。与此必要的更新相关的三个主要点值得在此提及。首先,它们的出现强调了归一化作为一个历史偶然和变化范畴的问题。其次,HTR的普及凸显了预测目标转录将在研究中如何使用的必要性,以便所得转录的质量与研究人员想要研究它们的方式相匹配。第三,这就产生了一个问题:在数字GLAM(美术馆、图书馆、档案馆和博物馆)领域出现的用于自动文本转录的HTR模型——从通用模型到专用模型——将如何迅速成为研究景观的一部分,从而改变历史人文学科的分析和解释模式。
那么,我们在转录文本时,有哪些隐性或显性的归一化方式呢?研究特定来源基础的学者可能有一套从出版商或语文学教育中继承的转录规范,鼓励归一化字母形式(如i/j或u/v)或对大写或间距施加特定规则。在审视转录问题时,我们不应忘记归一化本身已成为一种规范;十五世纪第一批版本和摇篮本(incunabula)的编辑通常提出的文本版本比今天的学者更接近原始手稿。由于他们努力以他们看到的方式复制中世纪手稿,他们保留了许多特征,不仅包括分栏、页眉或红字标题,还包括特殊的字母形式和缩写。摇篮本为此创造了包含这些缩写的特殊铅字,包括我们现在所说的长音符号(macron,Unicode 0304)以及其他几个符号(ꝫ; ꝰ等)。这些摇篮本还保持了普通s与长s(s/ſ)、普通d与岛屿d(d/ꝺ)、普通r与圆形r(r/ꝛ)的区别,这种区分在现代手稿版本中通常被取消了。说向印刷文化的过渡消除了对缩写和不同字母形式的需求是错误的。在后来的几个世纪里,归一化也遵循了当时的规范,包括整个十八世纪对长“s”的使用。
但是,我们今天能看到什么样的转录呢?学者们通常区分归一化转录、半外交级转录和外交级转录,尽管通常每个转录者都定义了自己的规则集,导致转录规范种类繁多。表1(见原文)展示了每种类型的转录示例,使用了我们在“巴黎圣经项目”中研究的拉丁手稿语料库。第一列(标记为“归一化”)说明的转录方法改变了许多字母形式、大写和间距,默默地扩展缩写,在转录者认为需要的地方修正文本,并用罗马字母表中的粗略等价物替换不熟悉的字母。对于任何不熟悉古文字学的人来说,它生成的文本非常容易阅读,因为它符合当代的读写能力,并且允许在有限干预的情况下进行某些研究探究,如文学风格、词频或文本比较。然而,任何形式的转录的核心都是数据丢失的阴影,即归一化如何移除了文档中存在的用于将其表示为文本的信息。
例如,作为中世纪研究者,如果我们想使用语言资源(LR)和自然语言处理(NLP)技术,特别是使用由HTR的监督机器学习创建的文本,那么归一化版本的文本与文档级转录之间不可避免的冲突就在眼前。我们建议,研究语料库的概念与归一化的概念交织在一起,归一化是一套自19世纪以来在大多数情况下被选择和完善的转录规范。在巴黎圣经项目的具体案例中,我们的重点一直是拼写和缩写的具体变异。尽管如此,HTR创建的语料库的兴起,特别是那些使用保留缩写的保守模型创建的语料库,无疑将需要NLP中的新方法来处理具有大量变异的非归一化文本。
第二列(标记为“半外交级”)显示了特殊字母形式如何按其在文本中的书写方式被保留,区分u/v或s/ſ,尽可能保留原始的大写或间距。这种方法扩展了缩写,但通常通过使用斜体(或其他方法如下划线)来指示其有目的的扩展。这是一种混合模型,我们可以从中理解人类阅读中的编辑干预,但不适合缺乏斜体来编码此类干预的纯文本处理方法。最后一列(标记为“外交级”)——也是最不常用的——试图从原始手稿中保留尽可能多的信息。类似于碑文转录的实践,这种外交级转录识别书写字符,将它们链接到Unicode,“不带空格、标点符号或变音符号(除非这些在源文档中),也不恢复缺损或扩展缩写”。
虽然有外交级编辑的传统,但大多数中世纪文本的版本并非外交级的,这或许是出于实用原因。对于处理中世纪手稿中许多不同于现代字母表的字母形式(长s、岛屿d、圆形r等),编辑传统在如何处理它们方面也存在分歧。在很大程度上,人们大致趋同于一组Unicode字符来代表书面文档中发现的“特殊字符”。在中世纪手稿的情况下,转录者使用的缩写一直是古文字学大量研究的对象,像中世纪Unicode字体倡议(MUFI)这样的倡议已经联合起来描述这些缩写。尽管大多数MUFI字符都在UTF-8的公共领域,这意味着没有其他字符可以分配给该特定的UTF-8代码,但在我们看来,MUFI的主要弱点之一是所谓的MUFI私有领域的性质,其中包括较不常见的缩写和字母形式。即使可以下载字符集并与特定字体一起使用,它也需要变通方法才能正确渲染,并且在纯文本工作流程中可能会出现问题。
转录规范被设计为确保关键文本一致性的一种方式,以便在印刷技术中固定下来,我们将印刷技术与严谨和正字法联系在一起。它们确保了关键文本的可访问性:为了现代读写能力以及学者和学生的期望。它们让学者能够更深入地了解文本传统,同时确保专业阅读的便利性。它们既影响我们可能做的研究种类,也限制了我们理解的可能性。我们要建议的是,在以印刷为中心的转录心态中,文本特征的归一化会导致信息的丢失,而这些信息很可能对中世纪研究的未来数字方法有用,甚至至关重要。
不言而喻,历史人文学科的数字化转向使得我们访问、创建和使用文本的方式成倍增加。多年来,人们已经能够远程在屏幕上阅读和比较数字化的中世纪手稿,国际图像互操作框架(IIIF)极大地加速了这一过程。然而,访问不仅仅是将档案材料传递到世界各地的问题。手稿材料数字化图像的可用性也允许我们访问其中的文本,通过创建有许多名称的文本:机器可读文本、数字文本、机器可处理文本、自动转录,或简称转录(假设是自动化的)。通过访问文本,我们的意思不仅仅是在屏幕上拥有供人类阅读的数字传真:我们认为访问意味着创建可以用于某种特定的、开放的学术用途的转录的可能性。
我们认为,转录归一化的历史与不断演变的研究景观密切相关。虽然第一批版本倾向于保留手稿的微观特征,但中世纪文本转录归一化的趋势是随着文学研究的发展而出现的。归一化版本允许研究人员社区拥有共同的读本,学者们不仅对Greg(1950-51)定义的“实质性内容”(即词语本身及其含义)感兴趣,而且对“偶然性内容”感兴趣,包括拼写、标点或分词。这种研究范式的变化——回到文献记录中的文本——反过来影响了转录方案,而中世纪研究者可用的不断发展的技术促进了这一点。
2.2 变化的技术与转录层级
让我们回到外交级转录的问题,以及随着中世纪研究技术的发展,它在该领域被使用的方式。前现代文化的学者经常谈论外交级转录或外交级版本,其中字符按其出现的方式记录,只有极少的编辑干预或解释。争论集中在转录的多样性上,允许捕捉不同数量的抄写信息。我们将这些关于外交级转录的争论视为与二十世纪晚期在生产和再抄写背景下理解文档的批判性实践相关联,这些实践出现在围绕“新语文学(New Philology)”的辩论及之前,特别是随着在网络上以图像形式交付数字版本手稿的可能性而出现。
有人可能会说,有多少种文本传统,就有多少种外交级转录实践。批评家为“转录层级”分配了不同的术语,这些层级有时重叠,但也基于不同的编辑实践在转录风格之间创造了微妙的区别。我们提出这一点的目的不是一劳永逸地决定应该如何进行外交级转录,而是建议一个人的编码选择不仅必须源于手头的特定文本场景,还必须源于人们希望在下游如何使用这些文本。如果这种文本的用途是用于学术阅读的基于屏幕的、记录性的数字版本,也许转录可以根据需要针对文本传统进行具体化,并针对作品的预期受众进行专门化。另一方面,如果目标是使用当代计算方法处理文本,转录规范的一致性和简洁性就变得更加重要,因为在真值(ground truth)创建和随后的模型再训练中做出的决定会在机器学习中嵌入偏差。如果目标是两者兼顾,则必须设计协调的工作流程将两者联系起来。
让我们考虑一些项目中外交级转录的一些隐含假设。许多(如果不是大多数)学者区分半外交级和外交级转录,前者通常扩展缩写,后者按页面上出现的方式转录文本,但其他人创造了更细粒度的区分。在坎特伯雷故事集项目(1993)的“巴斯妇序言手稿转录准则”中,Peter Robinson和Elizabeth Solopova定义了四个转录层级:规范化(regularized)、字素层(graphemic)、字形层(graphetic)和图形层(graphic)。
值得注意的是,Robinson和Solopova受到他们所能获得的技术的限制,这反过来影响了他们能够解决的研究问题的种类。由于他们手工转录所有内容,跨整个手稿传统转录特殊字母形式和缩写将太耗时。正如他们关于字形层转录的实用性所提到的那样:我们发现,虽然在这个初次转录中区分这些字母形式似乎没有时间成本,但在准确性上有明显的成本。似乎转录者专注于区分这几个字符意味着转录中其他地方的重大错误未被发现。
机器学习的情况完全改变了我们的工作方式、转录所需的时间以及高准确性的可能性。由于我们不是从头开始转录所有内容,我们可以纠正HTR已经生成的内容。因此,关注微观特征是可能的,因为大部分转录是以相对较低的错误率自动完成的。鉴于我们现在拥有的资源,即人工智能和HTR,我们怀疑Robinson和Solopova可能会选择另一个转录层级,即字形层而不是字素层,也许带有图形层的特征。
在巴黎圣经项目中,我们制作的拉丁圣经转录可以被描述为图形层和字形层的混合:我们区分每一个字母形式,我们尽可能忠实地表示缩写、大写、空格、标点,但我们并不表示字母形式中的每一个细微差异(例如,较长或较小的垂直笔画、长度、宽度或重量)。
在用于中世纪北欧文本机器可读版本的“Menota”(中世纪北欧文本档案)项目中,他们区分了三个转录层级:归一化、外交级和传真级(facsimile)。根据这种分类,我们制作的巴黎圣经转录将被描述为“传真级”,尽管我们没有编码他们描述的所有属性,例如不清晰的读数、擦除和/或更正的文本、首字母和显著字母或标题。在Menota项目的情况下,外交级被描述为逐字准确转录,其中缩写被扩展,古文字特征的数量减少。正如他们解释的那样,“外交级转录……比传真级转录需要更多的编辑干预,形式为缩写的解释和异体字变异的归一化。”由此产生的转录将比传真级转录更具可读性,后者可能对计算分析比对学术阅读更有用。
虽然开发和使用TEI-XML用于学术版本无疑对学者转录多层文本的方式产生了影响,但我们认为,中世纪研究的不久的将来将包括比目前多得多的自动转录,要求学者找到动态的方法来捕捉和组织多层数据。并不是说自动化会取代人类劳动,而是前者将使后者更具可扩展性和可定制性,并将开辟介于浏览数字化手稿库和准备完整版本之间的中间形式的文本探索。在我们看来,当自动化问题与转录相结合时,处理不同层级转录的学术基础设施将被创建,这仅仅是合乎逻辑的,从而为文本创建和分析开辟新途径。中世纪研究者无疑将使用这些不同种类的转录,因此像TEI-XML这样的编码模式似乎特别适合整理同一文档的不同表示,机器和人类可以对它们进行不同的使用。对于某些研究,如巴黎圣经项目,计算分析只需要外交级转录,但这并不排除创建一个平行的归一化版本供人类阅读或使用TEI-XML或其他手段进行跨版本查询。事实上,需要更多地考虑如何在迭代的HTR过程中创建的关于文档的这些层级数据可以被纳入档案,供未来的研究人员使用和重用。
目前HTR生成的文本最常见的用途之一似乎是档案文件的可搜索性,尽管描述这种技术使用的批评文献正在迅速扩展。当然,当我们更接近中世纪研究中众所周知的复杂文本分析和解释传统时,还有其他的可能性。例如,人们可能希望有一个自动转录作为创建新文献版本的草稿基线,或者为新的批判性版本创建一个外交层。同样,未编辑但可搜索的转录文本可用于语义注释或用于发生学批评(genetic criticism)的目的。在复杂的文本传统中,可以制作任意数量的转录见证本用于比较、对齐或更高层次的分析。这些最终目标中的每一个都由转录促进,但该转录的性质和规范影响了我们能够轻松完成“学术基元(scholarly primitives)”的程度。外交级转录为特定于其背后学术问题的语料库添加了新种类的信息。在计算机视觉机器学习快速进步的时代,也许是时候重新理论化外交级转录,或者完全替换这个术语了。很有可能在几年内,全球中世纪研究者社区最终会得到大量自动转录的文本,这些文本很难在计算上进行比较。
在为训练HTR模型创建真值数据时,有许多选择要做,建议通常相当模糊:尽可能接近我们在文档中看到的内容进行转录。我们自己的外交级转录方法与目的相关联;我们选择了一个与我们想要表示的信息种类相一致的转录方案,并且这些信息在结果文本中可供我们分析。然而,重要的是要限定“我们所看到的”这一表达,因为有时转录者会遇到一段文字,其中我们对平台倾向于如何反应的知识改变了我们的转录方式。其他人已经描述了真值创建的社会技术要素,所以我们不在这里赘述。我们如何在HTR启用的文本创建项目的设计之初就减轻这些问题,特别是如果我们的真值和HTR模型是公开可用的,并且很可能会被他人使用和改编?我们如何确信复杂的转录模式——其本身就是编码——是机器可处理的,并且它们不会干扰基本的下游过程,如分词和字数统计?
III. 为转录设计语料库
为现代读者转录以便他们可以毫无困难地阅读文本,与为机器转录是两个截然不同的任务。计算语言学家一段时间以来一直呼吁在中世纪语料库中“表现手稿现实”,通过在数字版本中编码语言、古文字和书籍学特征。当然,这种方法看到了编辑前现代文本的价值,但希望它们以“未掺杂的形式”可用,以便其非归一化的复杂性也可用于研究目的。创建手稿的自动转录不同于将其数字化,相反,它是创建它的一个不完美的表现——具有任何计算模型的所有局限性——以便能够通过特定的镜头检查该文本。然而,为机器转录并不排除最终编辑作品,但让我们先谈谈为计算阅读创建可操作的转录。
中世纪研究中的缩写通常被构建为一种中世纪读写能力(以及中世纪研究者的读写能力)的技能,以便能够阅读手稿。尽管有一些关于拉丁语和白话语言缩写的定量研究,但它们通常是需要学习、理解、解码然后编码或取消折叠的东西,通常是在制作转录或版本时。存在用于理解它们的研究工具,如Cappelli的《缩写词典》(Lexicon Abbreviaturarum)。在思考我们使用Transkribus转录中世纪手稿的研究过程时,我们想到大多数研究人员并不将缩写视为本身有用的特征,而是作为一个需要解决的“问题”,以便理解文本的含义,甚至在批判性版本中标记为扩展,表明编辑如何解释了缩写。
我们认为,使用外交级转录的理论潜力是不同的;它不是手稿细读的替代品,而是借助计算工具促进文本分析。在我们的巴黎圣经项目中,我们对世界上现存的许多巴黎圣经副本中的可计数微观特征感兴趣,以便对这些圣经的复制和抄写习惯,甚至可以说风格,进行预测分析。为了设计音译方案,求助于Cappelli以获取特定手稿中最常见的缩写和字母形式的例子并不是特别有帮助。后者是一本通用的参考书,追求时空和通用的广度。在我们的案例中,我们是在一个领域以及它出现的相对受限的空间和时间内工作。在使用MUFI时我们遇到了类似的问题,包括其大部分字符集并未出现在我们的手稿中这一事实。总之,如果我们认为任何转录系统都是编码中世纪抄写数据的一种形式,我们的方法是务实地选择一种与我们特定手稿语料库的实物(realia)相对应的系统。
为了训练巴黎圣经笔迹的HTR模型,我们首先需要创建一个少量叶的转录。为此,我们确定了大约40个用作缩写的特殊字符:置于字母顶部的上标字符、Unicode的所谓“组合字母”、一些特殊字符和特殊字母形式以区别于它们的常见形式;最后是上标字母。第一组和第三组可以与许多字母一起使用,实际上我们在转录的每一页上都会发现新的组合。然而,独特的缩写和字母形式的数量是有限的。我们选择了一种务实的、适应性强的Unicode解决方案,可以轻松地与HTR系统配合使用。当然,特定字母形式之间以及标点符号的位置存在细微的古文字变异,当我们跨越不同的手稿和不同的手稿制作背景时,这一事实变得尤为明显。这一事实并没有导致新编码形式的倍增,而是产生了一系列我们在项目准则中解决的问题。
IV. 面向HTR的手稿转录的一些基本原则
每个项目、每个手稿、每个笔迹都是不同的,随着对语料库知识的增加,用于转录的可能Unicode字符列表也会演变。因此,我们建议没有一份明确的准则列表可以用于并应用于任何单个项目,特别是不能应用于所有项目,而是必须根据项目目标从大量可能性中设计针对具体情况的标准。就像编辑文本本身的情况一样,当我们设想将手稿中发现的书写转换为数字书写系统中的字母时,不可避免地会出现数据丢失的问题。建立特定的特殊字符列表并设定要遵循的原则是基础,但每一次尝试都会引发多个问题:我们包含多少信息?我们如何编码变异、例外和审美抄写习惯?我们如何选择什么是可接受的编码变异,或者或者,我们如何决定何时一个变异不够显著而不值得关注?我们如何知道什么样的编码形式足以公正地对待我们的文档?在矛盾的情况下我们如何优先考虑原则?
接下来,我们将概述在这个研究阶段出现的一些面向计算阅读的转录基本原则。下面的原则列表并不意味着是关于该主题的定论,而是作为具有类似问题的其他项目的试金石。随着社区跨语言和时期处理档案,我们邀请通过学术辩论对其进行修订。
4.1 原则1
尽管为机器学习进行转录从根本上说是一种解释性活动,但要遵守的第一条原则应该是转录必须尽可能接近你在手稿中看到的内容。“接近”诚然是一个模糊的概念,因为任何Unicode字符的选择都不足以呈现从抄写员笔迹到笔迹的所有古文字多样性。我们可以这样重述第一条原则:如果在Unicode中有一个基本字符对应于你所看到的内容,并且该字母在你的文档中表现出的变异对于手头的研究问题来说微不足道,那么就没有理由选择更复杂的字符编码。当然,这一原则要求我们在转录之前进行思考,甚至迭代地修订我们的初始转录系统,而不是依赖于印刷编辑或为纸质版本制定的编辑准则推荐的预设字符。即使有这样一个使用对应的Unicode字符来代表你在手稿中看到的字母的基本原则,从项目到项目,或从手稿到手稿,仍有可能出现矛盾。
4.2 原则2
在转录任何文档时,由于在你尚未看到的部分文档中总是存在变异的可能性,第二个原则是在开始转录之前,对你想自动转录的完整文档的不同部分,或通过你将要处理的语料库样本,进行初步“扫描”,甚至随机检查是有用的。在项目的早期阶段,或者当从一个手稿移动到另一个手稿时,第一遍转录允许你创建一个特殊字符的工作列表。记住任何给定系统可以使用的特殊字符列表是有限的,这可能是有用的,因此优先考虑最重要的字符将很重要。最终确定特殊字符列表可能只是迭代的。当移动到完全不同的文档样本,或者说同一语言中的跨体裁或由非常不同的抄写员书写的文档时,随着时间的推移修订特殊字符列表可能是重要的。我们发现,一旦完成了初始自动转录,评估古文字变异是否足够显著以至于两个字母需要用单独的字符编码的一种方法是使用全文搜索检查手稿中的拼写。
4.3 原则3
由于笔迹中甚至在单个笔迹中不可避免地存在多样性,与第二个原则相关的第三个原则是,当以细粒度编码某些字素的“审美”质量(在我们的案例中,这意味着像间距或字母v和p这样的问题),或某些缩写(例如长音符号)位置的变异时要小心,这会造成过多的编码选择或在转录中排序字符的困难。这一原则在某些人看来似乎排除了手稿的一些古文字独特性,但从基于频率的计算分析角度来看,大量单一出现的字母意义较小。
4.4 原则4
由于在我们的研究中,我们正在创建用于计算分析的机器可读转录,我们提出的第四个原则是不使用专有字体(如MUFI字符的专有子集),这些字体会造成字符编码问题或在管道中的多个工具之间显示复杂。对于MUFI私有领域的大部分,其他UTF-8代码可以分配给其他字符。虽然这一原则似乎与第一条转录你所见内容的原则相矛盾,但其想法是在“最小”的字符选择集中选择与你所见足够相似的字符。
4.5 原则5
第五个原则是不制定会向转录中添加容易被常见数字分析形式“撤销”的特征的转录准则。换句话说,在训练HTR转录文本时,需要考虑基本的自然语言处理(NLP)预处理任务,如小写化、分词或移除标点符号。例如,想象一下手稿中有不同版本的字母“d”;用大写字母“D”编码其中一个变体并不是一个好的选择,因为使用自然语言工具包(NLTK)对文本进行常规小写化会抹去精心编码的区别。同样,分词——将文本划分为字符串的过程——可能会分割用撇号、空格、连字符或括号编码的单词,因此必须注意避免使用这些常见的分隔符来编码手稿中的语言特殊性。这在思考所谓的“智能”HTR模型时也很重要,这些模型试图训练HTR产生超出手稿中所见的内容,例如用两层数据转录一个缩写词,即缩写和词的扩展形式。
4.6 原则6
第六个原则意味着转录选择取决于对来源及其产生的深刻了解。空格和标点符号高度变异,手稿中的文本块也是如此。在我们的具体研究中,旁注(主要是更正、页眉和接字catchwords)的重要性对于我们的研究问题来说微不足道,因此我们不在真值中转录它们,也不将它们包含在页面布局中。我们并不是说旁注作为数据没有用,但在巴黎圣经项目的情况下,我们专注于主要文本块;更正或旁注的例子通常是不同的笔迹。其他对象,如加注的圣经,具有更复杂的布局,许多文本块交织在一起,其他中世纪研究者可能希望考虑这些额外的数据。每个项目都不同,学者需要问自己:项目的目的是什么,我们需要关注什么,或者什么是相关的?一旦确定了这些相关事项,最重要的事项就可以包含在转录原则中。
4.7 优先考虑原则
在决定相互矛盾的情况下,我们在上述原则中添加以下尾声:需要根据手头的研究问题优先考虑原则。
V. 构建用于转录的手稿数据集
5.1 选择HTR转录语料库
在本节中,我们想提供一些关于构建一个或多个手稿转录数据集的实用建议。使用手稿级转录的一个原因是,手稿中的抄写行为有一些值得批判性关注的东西,并且可以从文本中检测出来。纯粹的古文字变异不会被HTR很好地服务,因为自动转录的目标是将文档转换为机器可读文本,因此只有非常不同的字母形式才会被这样捕捉。考虑手稿自动转录时的另一个关键点是,我们构建自定义HTR模型的能力通常基于几十页文本(几千个单词)的手工转录。这一步骤在中世纪语言中可能是一个非常耗时的过程,任何项目都应该预算足够的资源来启动。如果现有的转录或版本存在,重要的是要记住,记录式风格的版本比综合批判性版本更好;此外,为了坚持上述语文学上忠实的方法,它们必须被“去归一化”才能用作模型训练的真值。
5.2 巴黎圣经转录语料库构建的挑战
并非所有的中世纪手稿,特别是巴黎圣经,都被数字化了,甚至不可被发现。巴黎圣经在历史手稿图书馆中占据象征性地位。由于它们代表了书籍生产历史以及虔诚、讲道和教学历史中的重要时刻,它们已成为许多收藏的“必备品”。然而,巴黎圣经的这种矛盾处境使得它们既数量众多,但处理起来又很复杂。由于它们的数字化图像质量参差不齐,并非全部公开可用,并且有相互竞争或矛盾的图书馆目录描述,因此处理它们也很困难。
5.3 元数据的问题
对于从手稿制作的转录来说,元数据很重要。然而,正如我们之前提到的,处理中世纪手稿很困难,因为文化机构以截然不同的方式描述它们。从描述良好的手稿中收集的物质证据对于将我们正在制作的转录情境化非常有帮助。总的来说,我们不得不谨慎对待元数据。
VI. 为研究问题设计HTR模型
6.1 训练转录中世纪手稿的模型
实现用于转录中世纪手稿的HTR模型的步骤不仅限于了解什么样的转录方案最合适以及有哪些数字化的手稿可用。训练HTR模型的过程涉及非平凡的版面分析步骤。在巴黎圣经项目中,为了创建一个HTR模型,我们完成了许多步骤:确定我们的叶语料库,归一化我们的元数据,并设计我们的转录方案。我们在Transkribus中训练了我们的第一个模型LAD 1.0。总之,HTR模型设计是一项耗时的工作,它将特定的研究问题与对HTR系统性能和特征的一般理解联系起来,但其结果也有些难以预料。
6.2 迈向复合模型?
有时证明将具有不同笔迹的不同来源结合到一个单一模型中是有价值的,希望一般结果在各种文档中证明更成功。这种方法对于限制特定手稿集在缩写或拼写方面的偏差以及避免所谓的过拟合(overfitting)问题很有用。由于我们的第一批模型是使用非常有限的语料库开发的,我们很快意识到了它们的局限性:它们有严重的偏差。为了反映巴黎圣经的多样性并限制引入的一些偏差,我们决定增加数据集的大小,并基于多个手稿训练一个新模型,反映传统、地点和生产日期的多样性。我们构建了一个包含来自24个手稿的大约450个叶的数据集。这个复合数据集是一种“人造”巴黎圣经。我们随后基于每本圣经手稿3个校正过的叶训练了一个新的HTR模型(PBP 1.0)。
6.3 多少才够?
机器学习领域对于那些受过传统人文训练的人来说可能是疏远的,因为它引入了诸如“真值”、“训练数据”甚至“金标准”数据等传统上属于科学的概念。机器学习中的另一个关键思想是“预测分析”,这同样通常不被整合到中世纪手稿的研究中。预测分析可能很棘手,因为我们知道不准确或偏差有可能产生错误的结论。在我们工作背景中隐约出现的两个问题是:(1)我们是否有数字化的数据多样性来减轻上述所谓的“收藏偏差”,以及(2)为了充分理解我们能对任何给定语料库了解什么,需要进行多少这种转录、分析和解释。
VII. 将我们的转录用于分析目的
本文迄今为止讨论了中世纪研究者在处理手稿时如何处理转录问题这一更大的问题,以及随着计算机视觉方法(如手写文本识别)提供的自动化,这些方法是如何演变的。关于构建语料库、为中世纪笔迹创建平衡甚至通用模型、甚至机器学习模型的错误、偏差和过拟合的新挑战等许多重要问题都浮出水面。我们不太可能用人力纠正这些自动转录的所有错误,因此我们需要找到寻找更大模式的方法,同时减轻不精确性。
如上所述,制作手稿转录的最简单原因之一是促进可搜索性和关键词索引。从手稿转录可以实现中世纪文本分析的另一个重要方式是在互文性领域。在我们自己的工作背景中,我们在拉丁圣经中发现了这些互文元素的等价物,其中文本不同于武加大译本(Vulgate)。当字符串序列不匹配时,与Vetus Latina数据库(Brepols)的交叉检查揭示了许多例子,其中我们巴黎圣经语料库中的语言呼应了Vetus Latina的前武加大文本。
从手稿制作的转录中搜索特定单词的可能性的另一个例子来自字数统计。使用索引工具,我们可以直观地比较拉丁词lemma domin-(意为“主”)的两个版本,即“ꝺn*”和“ꝺomin*”的频率。这些差异允许我们查看单个手稿组中指示抄写员概况的单个特征的变异,也有助于我们在许多手稿和特征中使用计算方法进行分类实验。
例如,在剑桥Corpus Christi College 49号手稿的情况下,已知展示了三种不同的笔迹,我们能够使用称为滚动风格计量(rolling stylometry)的技术来计算预测这些笔迹的身份,我们之前已经用肉眼确认了这一点。值得注意的是,使用这种顺序分析方法,我们能够用相当小的语言样本(少于1500个单词)预测手稿任何给定点的抄写员身份。
最后一个例子是非常远距离的分析。使用称为TF-IDF(或词频-逆文档频率)的方法,我们可以查看巴黎圣经传统中手稿片段的许多非归一化转录,以便根据我们从遗留元数据中了解的内容预测日期或定位。使用自定义词典,我们使用这种方法发现的是,某些具有特定拼写的高频词是指示手稿定位的已知区域的。这倾向于表明英国抄写员更可能使用提罗尔(Tirolian)“和”字符,而意大利或一些法国抄写员更喜欢两个字母的“et”。
VIII. 偏差的连续体
在我们的论文中,我们主张对转录规范采取明确的方法,这些规范编码关于我们研究文档的证据,并将它们与特定的研究问题联系起来,重点是可重复性和纯文本环境。在不久的将来,我们预测主流中世纪研究将使用更多直接从手稿转录的文本,半自动文本提取方法的使用将比现在更普遍。正如我们在论文中所论证的那样,自动化方法使得在转录方案中包含微观特征成为可能,以便捕捉关于手稿中抄写实践的不同种类的数据。
未来的文本处理方法很可能会出现来处理文本内部和文本之间的这些差异。在HTR和数据共享日益普及的时代,我们认为,中世纪研究者有新的责任参与深思熟虑和明确的文本创建。我们不太可能消除HTR模型中的偏差,因为毕竟,我们基于特定文本传统采用的转录规范本身就是偏差的形式。此外,数据集结合了非常不同的领域和种类的文本人工制品。鉴于修复中世纪文本的过程被描述为所谓的“非版本(unedition)”,我们坚信应该保留的传统版本的一部分是编辑声明。由于转录、手稿工作和技术之间的关系已经改变——并将继续改变——我们的学术实践,让我们把这个新版本称为“转录声明(transcription statement)”。在这样的声明中,应该概述一个人的转录规范的理论和实践原则、特定数据层可能揭示的预期研究问题、训练和输出数据的样本,以及模型训练和修正的原则。
二、解读
这篇论文是数字人文(Digital Humanities)领域中关于“数据化(Datafication)”与传统语文学(Philology)之间张力的精彩论述。它不仅仅是一篇技术报告,更是一篇关于如何将前现代文本转化为现代数据的方法论宣言。
1. 从“阅读对象”到“数据对象”的范式转移
传统的中世纪研究侧重于制作“校勘本(Critical Edition)”,其核心目的是为了让人类阅读流畅。为了达到这个目的,编辑们会进行大量的“归一化”工作(如统一拼写、展开缩写)。然而,作者敏锐地指出,这种为了人类阅读便利而牺牲原始细节的做法,恰恰破坏了机器“阅读”文本的能力。对于机器学习算法(如风格计量学、作者归属分析)而言,那些被人类编辑视为“噪音”的微小差异(如缩写习惯、特殊字符变体),恰恰是区分不同抄写员、定位手稿年代和地点的关键“信号”。因此,论文提出了“回到写字间”的口号,主张建立一种面向机器的外交级转录。
2. 归一化的悖论与六大原则
论文的核心贡献在于提出了一套针对HTR的转录原则。这套原则体现了一种深刻的实用主义哲学:
- 忠实与妥协的平衡:原则1强调“所见即所得”,但原则3和4又迅速引入了妥协——不要为了微不足道的审美差异(如笔画粗细)而引入复杂的编码,也不要使用会导致技术故障的专有字体(如MUFI私有区)。这显示了作者非常清楚计算处理的局限性。
- 面向NLP的预判:原则5特别精彩,它提醒研究者在转录时就要考虑到后续的自然语言处理步骤(如分词、小写化)。如果转录方式在经过简单的NLP清洗后就丢失了信息(例如用大写D区分某种d,结果被一键小写化抹平),那就是无效劳动。这体现了全流程的数据思维。
3. “小数据”与“大数据”的博弈
在构建HTR模型部分,作者展示了数字人文项目常面临的困境:是追求深度还是广度?
- LAD模型(单一手稿):精度高,但过拟合严重,无法处理其他手稿。
- PBP模型(复合手稿):试图通过引入24种不同手稿来建立通用模型,结果发现准确率下降,且工作量巨大。
这揭示了一个残酷的现实:在中世纪手稿领域,可能不存在一个“万能模型”。未来的方向可能是建立多个针对特定子集的小型、专用模型,而不是一个庞大的通用模型。
4. 转录声明(Transcription Statement):数据伦理的新标准
文章最后提出的“转录声明”概念极具前瞻性。在AI时代,数据本身就是带有偏差(Bias)的。如果研究者不公开他们是如何训练模型的、选择了哪些字符集、忽略了哪些边缘信息,那么基于这些数据得出的结论就是不可靠的。这实际上是在呼吁一种新的学术规范:数据生产过程的透明化等同于传统学术中的引用规范。
三、问答
Q1:为什么作者认为传统的“归一化(Normalisation)”转录不适合机器学习?
A1:归一化是为了方便人类阅读,它会消除拼写变异、缩写习惯和特殊字符等“噪音”。然而,对于机器学习(如风格计量学或抄写员识别)来说,这些被消除的微观特征恰恰是区分不同抄写员、定位手稿年代和地点的关键数据特征(Features)。归一化导致了数据的丢失,使得机器无法捕捉到文本的细微差别。
Q2:什么是“外交级转录(Diplomatic Transcription)”,它与“半外交级”有何不同?
A2:外交级转录旨在尽可能忠实地保留手稿的原貌,包括字母的特殊形式、缩写不展开、无现代标点等。半外交级则是一种混合模式,它通常会展开缩写(用斜体标记)并可能进行部分标准化。作者倾向于一种结合了图形层(graphic)和字形层(graphetic)的外交级转录,以保留供机器分析的原始数据。
Q3:在训练HTR模型时,作者遇到了什么“过拟合(Overfitting)”问题?
A3:作者最初仅基于单个手稿(LAD 2013.051)训练模型,该模型在处理该特定手稿时表现极佳。然而,当应用于其他手稿时,模型会错误地“幻视”出该特定手稿特有的缩写习惯,即使新文档中并不存在这些特征。这就是过拟合:模型学到了特定数据的噪声,而非普遍规律。
Q4:论文提出的转录原则中,关于“专有字体(Proprietary Fonts)”的建议是什么?
A4:原则4建议不要使用专有字体(如MUFI字符集的私有区域)。虽然这些字体能精确显示特殊字符,但在纯文本处理管道和跨工具使用时会引发编码错误或显示问题。作者建议在标准UTF-8范围内寻找最接近的替代字符,以确保数据的互操作性。
Q5:为什么作者说“预测分析”可以用于识别抄写员?
A5:通过“滚动风格计量(Rolling Stylometry)”技术,计算机可以统计文本中微小特征(如特定单词的拼写频率、缩写习惯)的分布。即使在同一份手稿中,如果由不同抄写员接力完成,这些微观统计特征会发生变化。机器可以利用这些数据在极短的篇幅内(少于1500词)精准预测笔迹的切换。
Q6:什么是“转录声明(Transcription Statement)”,为什么它很重要?
A6:转录声明是作者提议的一种新型学术文档,类似于传统编辑的“编辑说明”。它要求研究者详细说明转录的理论原则、模型训练的数据来源、偏差以及修正原则。在AI时代,这对于确保数据的透明度、可重复性以及理解模型内在偏差至关重要。
Q7:在构建复合模型(Composite Model)时,作者发现了什么局限性?
A7:作者试图通过汇集24份不同手稿的样本来构建一个更通用的“巴黎圣经”模型。结果发现,由于手稿笔迹差异巨大且样本量(每份仅3页)可能不足,复合模型在处理未知文本时的效果并不理想。这表明在中世纪手稿领域,建立一个通用的“大一统”模型非常困难,针对特定子集的专用模型可能更有效。
Q8:TF-IDF分析在本文中被用来解决什么问题?
A8:作者使用TF-IDF(词频-逆文档频率)来分析非归一化的转录文本,目的是预测手稿的制作地点。研究发现,某些高频词的特定拼写(如in与ī,et与⁊)在不同地区(如英国、意大利、法国)有显著的分布差异,这为手稿的地理定位提供了新的计算证据。
Q9:作者如何处理转录中的“矛盾”情况(原则优先权)?
A9:当转录原则发生冲突时(例如“所见即所得”与“避免复杂编码”冲突),作者提出必须根据研究问题来确定优先级。例如,如果研究不关注旁注,那么即使手稿上有旁注也不予转录;如果研究关注缩写位置,则需要制定统一规则(如长音符号是放在两个字母中间还是某个字母上方),这本质上是一种基于研究目的的解释性选择。
Q10:本文对“巴黎圣经”这一特定对象的处理有何特殊之处?
A10:巴黎圣经数量众多但分散,且缺乏统一的数字化标准。作者指出,由于这些手稿通常书写于相对标准的哥特字体,它们是进行HTR实验的理想对象。然而,现有的元数据混乱且不一致,迫使项目组必须先进行大量的人工筛选和元数据清洗工作,这也凸显了数字人文研究中基础设施建设的重要性。