天将降大任于是人还是斯人?隐藏在古籍数字化里的问题

用AI做古籍修复,可以怎么做?

作者|西西弗

最近,有关“故天将降大任于‘是人’还是‘斯人’”的话题登上网络热搜。不少网友表示,记忆中,语文教材里这句里是“斯人也”,现在却改为“是人也”。

对此,北京大学中文系教授孙玉文接受采访时表示,古代传下来的文献记录中,孟子这句用的就是“是人”。

事实上,到底是“斯人”还是“是人”,不仅可以查阅教科书,也可以在字节跳动新开发的识典古籍平台直接搜索古籍原文。


(《四库全书-孟子注疏》)

多年前,张一鸣就希望今日头条能做成一个百科全书。

他提到,当读到朱自清《背影》的时候,能不能马上在今日头条上看到背景知识?当时朱自清和父亲闹别扭好几年,而且是不说话的那种别扭,在这种背景下,他目送父亲回去,才会看着背影有感而发。如果能知道这些,用户对《背影》的理解可能会完全不一样。

而当下,字节跳动的古籍数字化公益项目——识典古籍,就是一个百科全书式的尝试,收录其中的,是比《背影》年代更久远的中国古籍。

据统计,中国现存古籍约20万种,建国以来,中国实现文本数字化的大概3-4万种,平均每年500多种,按照这个速度,实现古籍文本数字化大概需要两三百年。

能否借助AI的力量,加快中国古籍古籍数字化的步伐?

近日,由“北京大学-字节跳动数字人文开放实验室”研发的古籍数字化阅读平台“识典古籍”测试版正式上线。目前,字节跳动内部已经有15个项目组参与到古籍数字化当中来。

不只是将古籍通过OCR(图像转文字)技术进行数字化,更重要的是,通过NLP技术,让AI学会读古文,从而实现对古文进行断句、分词、打标点,进而实现古籍信息的搜索。


“过往我们如果想了解哪些文献提到了中国古建筑里的‘斗拱’,可能需要去图书馆一本一本的翻古籍,未来,我们可以通过识典古籍的平台一键搜索。”抖音集团企业社会责任部产品经理唐垲鑫举例说。

在过去的几年中,谷歌等国内外的科技公司都曾经提出古籍数字化的计划,但部分项目因为技术、版权等种种原因而阻力重重。

在字节跳动的规划中,这一平台将完全对公众免费开放,并尝试用“众包”的方式,邀请全社会一起参与到古籍数字化中来。

这一次,字节跳动能成功吗?


古籍数字化有哪些难点?

中华文明是人类文明史上唯一没有中断的古老文明。而没有中断的证据,就体现在中国拥有海量古籍上,但古籍的“续命”早已迫在眉睫。

全国高校古籍整理研究工作委员会主任安平秋曾将全国古籍工作比喻成一条大河,国家图书馆等中直机关在上游负责原版善本保存,中游高等院校和古籍研究所进行整理研究,再由古籍出版社进行整理、出版,最后还要进入一个大海,进行阐释应用,也就是传播和推广。

因此,从一条大河再到汪洋大海,其中涵盖的工作量可想而知。但在2015年之前,全国做古籍修复的人不到100人,而且连本科以上的高学历人才都没有。

目前,全国专业与半专业的古籍保护和研究人员,包括整理研究的出版的加在一块不到1万人。相比上千万册亟待修复的古籍来说,人才培养任重道远。


(国家图书馆副馆长张志清在台上分享全国古籍普查登记情况)

在新技术兴起之后,古籍数字化成为保护古籍重要途径。但用技术手段提高古籍数字化效率,也面临很大的挑战。

举个例子,古籍上使用的繁体字,存在异体字、生僻字、通假字等,同样一个汉字可能有几十种写法,在不同朝代,不同地方,甚至不同版本的书籍中写法都不一样,如何在数字化过程中准确识别,就面临较大挑战。

而且,古籍中没有标点,但现代人的阅读习惯是需要断句。以前,断句的工作是靠对古籍有足够了解的专家学者来完成,在人工智能时代,能否教会AI对古文进行断句、加标点,成为工程师们的一个目标。

更进一步,能否开发出一个工具产品,让全国的图书馆、古籍爱好者,乃至普通人都加入到古籍数字化中来?如果这些都能实现,无疑将大大加快古籍修复的进度。


字节跳动开发“识典古籍”

2022年3月17日,北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在古籍文献的保护和开发上,实现对古籍内容的智能化整理和文本知识图谱的自动生成。

近期上线的“识典古籍”平台测试版,便是这一合作的最新进展。

据项目负责人介绍,该平台主要使用了三种技术,即文字识别、自动标点、命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。

目前,行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。

测试版上线之前,识典古籍平台已经进行了多轮内测。每次内测大概有2000人左右的用户参与,主要人群有三种,一种是普通大众,另一种是古籍爱好者,还有一种是古籍研究学者。

几轮内测下来收集了大概300多条问题,采取了中间90条进行了迭代,主要是一些体验方面的改进。比如有些古籍名字前后不一样。像《诗经》,它的底本其实名字叫《毛诗》。这样不同的名字,会影响搜索结果。


相比字节跳动内其他产品,识典古籍可能是用户量最小的一个,但这并没有降低识典古籍在字节内部的地位。

整个产品小组的人员主要从字节跳动内部进行招募,其中不少同事对古籍有浓厚的兴趣,个别产品经理本身研究生专业就是古典文献。

但这并不意味着开发识典古籍更容易。

以“搜索”功能为例,一次搜索动作的完成,背后有“分词、召回、排序”三大步骤。在分词这一环节,就首先遭遇了挑战。

“让AI去读古文,需要有足够多的语料去训练算法。”字节跳动人工智能实验室的工程师表示,对于白话文,字节拥有充足的数据,可以在此基础上做分词模型,但古籍方面的内容数据,任何平台都非常欠缺。

古文的语料,尤其是人工监督语料极为欠缺,成为制约整个业务发展的重点。

最终,工程师们通过少量的公开的古籍分词语料,利用半监督学习和预训练的技术,形成了现在的古籍分词模型,提高搜索精确率。

到了“召回”的环节,则是考验系统对于繁简字、异体字、通假字的理解。为了提高召回率,字节团队做了包括繁简字、异体字的归一化,以及一些输入错误下的自我纠错机制等,来达到更好的搜索效果。


古籍要走向活化、大众化

识典古籍未来三年的目标是,利用人工智能在未来三年能够完成1万种古籍智能化整理,并且面向观众开放。

唐垲鑫表示,字节跳动旗下有抖音、头条这样的内容平台,公司希望古籍的知识内容不只是像博物馆一样束之高阁,而是能够触及到更多人。


(抖音集团企业社会责任部产品经理唐垲鑫)

“我们希望打造更多的创意互动,它可能是视频形式,可能是以互动玩法,甚至是游戏的形式,让更多人对古籍产生兴趣,同时他们触及到古籍更深度的知识。”

换句话说,识典古籍希望将古籍中的人名、地名、书名都识别出来,抽取其中的关系,转成知识图谱形态,通过图谱跟百科联系在一起,甚至还可以跟抖音、问答、旅游等联系在一起,让大众能够更加高效地阅读古籍。

北京大学数字人文研究中心主任王军也是“北京大学——字节跳动数字人文开放实验室”的成员,他表示,在今天这样一个数字化、网络化、智能化的环境下,古典文献呈现方式可以多种形态,包括产品化、可视化、大众化,这是识典古籍要达到的目标。

“今天数字化环境下,我们不仅要把文字转移到数字化平台上,更重要的是让典籍文献跟我们今天的互联网信息形态融合在一起。”

这既是古籍大众化的命题,也是古籍活化的重要命题。

如何让一个习惯刷手机的普通用户对晦涩难懂的古代文献感兴趣,这同样是一个非常大的挑战。

之前,西瓜视频自制过一档纪录片名字叫《穿越时空的古籍》,介绍古籍修复和古籍历史故事,受到古籍保护相关部门高度评价。此外,包括抖音上的“寻找古籍守护人”项目等很多玩法都大受欢迎。


未来,识典古籍也会跟PICO业务合作,把古籍里的一些原生场景,通过VR方式复现出来,把古籍里的文化变成一些生动的场景和知识,让更多人产生对古籍的兴趣。

抖音号“红楼宴”,也在做类似的尝试。账号主理人郝振江是一位《红楼梦》爱好者,他的另一重身份是一名大厨。不过,他的账号只做《红楼梦》里出现的菜品。他将书中出现的108道菜品创作了出来,并且做成了短视频。在这个抖音账号里短视频既有文化气息,又能展示红楼梦里的美食佳肴,吸引了超过50万的粉丝。


(抖音账号红楼宴里的视频作品)

100多年前,胡适、傅斯年这些知识分子就提出“再造文明”。放在今天的环境中,就是“古籍重生”的意思,王军表示:“今天我们要传承文化典籍,转化到数字化环境下第一步就是要重新阐释,这并不是说一字一句重新翻译,而是要跟当代人生活结合在一起,为我们当代人精神提供养料,这样才能真正实现活化。”


分享至:

您可能感兴趣的文章

参与讨论