#北大联合字节上线免费古籍阅读平台#
近日,由“北京大学-字节跳动数字人文开放实验室”研发的古籍数字化阅读平台“识典古籍”测试版正式上线。该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。
在很多人的印象里,古籍文本往往艰涩难懂,而且接触机会不多。在数字时代,这种情况正在发生转变。借助现代技术对典籍进行数字化呈现,将卷帙浩繁的古代典籍“复活”,让那些尘封已久的字符重新跳动起来,成为每个人触手可及的工具与资料库。
近年来,OCR(光学文字识别)、AI(人工智能)句读和知识图谱等技术的快速发展让古籍数字化有了更多可能。一些科技公司与专业机构和科研院校合作,将技术优势与专业知识进行有效打通与融合,积累了较为成熟的技术和经验。
这些技术支撑起如今的“识典古籍”测试版,也成为更多古籍数字化的起点。未来三年内,“北京大学-字节跳动数字人文开放实验室”将陆续完成10000种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。
为什么古籍保护需要更开放?
古籍作为中华民族文化传承的重要渠道之一,记载了大量中华民族文化形态和发展历史。但由于朝代更迭、战争、自然灾害以及年代久远等原因,大量古籍已流失或毁坏。2007年,“中华古籍保护计划”开始实施,迄今已有15年。
经过全国古籍普查,每部古籍都拥有了一张“身份证”,研究人员还发现了包括《永乐大典》“湖”字册在内的一批珍贵文献。收藏环境方面,全国1000余家古籍收藏单位的库房条件有所改善,超过2000万册/件古籍得到妥善保护。
而在2022年的当下,人们阅读古籍和查找资料的习惯和场景越来越多地转移到线上。同时,普通读者对于古籍的关注度也在不断上升。今年初,98岁的古籍版本目录学家沈燮元因为一部纪录片,受到广泛关注,在网络走红。
在抖音上,国家图书馆副馆长、国家古籍保护中心副主任张志清,国家图书馆古籍修复专家杜伟生、故宫书画修复专家沈洪彩等,通过短视频的形式介绍传统经典作品的保护与修复工作,让更多人了解到其中的知识和意义。
然而,古籍保护工作仍然任重道远。据“识典古籍”项目负责人介绍,目前亟需修复的古籍数量达到1000万册/件。20万种古籍中,已有8万种完成影像数字化扫描,近4万种完成文本数字化。古籍修复人力成本很高,培养一名专业修复人员需要极高的时间成本,而古籍数字化工作也面临资金缺口大、技术难度高等困难。
在社会各界的努力下,一批数字化古籍平台涌现出来,包括中国哲学书电子化计划(Chinese Text Project)、书同文古籍数据库等等。这些平台有着各自的优势,但也有不同局限。书同文古籍数据库收费较高,普通读者无法随时随地进行查阅和使用。中国哲学书电子化计划目前囊括了超过三万部著作,但未能解决一个基本问题,用户常常无法访问。
在这样的背景下,更加开放的合作与探索开始出现。
开放合作下的新趋势
在文物保护与传承的过程中,文保机构、科研院校与科技公司的跨界合作越来越普遍,珍贵古籍、专业团队、先进技术由此得以汇合。2018年,半导体公司英特尔与中国文物保护基金会合作,启动了利用3D建模与AI识别修复长城的项目。2021年3月,腾讯联合敦煌研究院开发了AI病害识别技术,用于壁画修复与保护。
2021年5月,阿里巴巴公益基金会联合四川大学、美国加州大学伯克利分校、中国国家图书馆等,推出“汉典重光”古籍平台,让一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化的形式回归。该平台涵盖的古籍数量为20万页。
从2021年6月开始,字节跳动联合国家图书馆等机构、中国文物保护基金会等,在古籍修复、活化和数字化等领域开展了一系列合作,包括捐资1000万元,联合成立古籍保护专项基金等,定向修复百余册件珍贵古籍。
2022年3月17日,北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在海量的古籍文献上,实现对古籍内容的智能化整理和古文本知识图谱的自动生成。
近期上线的“识典古籍”平台测试版,便是这一合作的最新进展。据项目负责人介绍,该平台主要使用了三种技术,即文字识别、自动标点、命名实体识别。
文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
同时,这些先进技术也离不开人的支持。北京大学数字人文研究中心主任王军表示,北大在这次合作中联合各大高校学者和文献专家,负责人工审核与校对,弥补人工智能有识别错误率的短板,并利用自有学术平台,连接更多专业研究者和学生群体。
该平台测试版已免费向所有用户开放,在数字化文本内容之外,提供足够权威的影印底本作为参照,同时提供主题词检索和繁简体转换功能,方便专业研究人员、古籍爱好者以更加高效便利的方式获取古籍内容。同时,“识典古籍”测试版也存在一些不足,比如典籍数量相对较少,标点错误率还需进一步降低。
接下来,“北京大学-字节跳动数字人文开放实验室”计划通过人工智能技术,实现全自动整理校对,借助全社会的力量,更高效地实现存量古籍全部数字化。同时,“识典古籍”还将向全社会开放古籍阅读检索研究能力,助力古籍文化传承和传统文化研究。
编辑:段雅露
12月13日-15日,36氪WISE2021新经济之王峰会在上海举行,今年我们以「硬核时代」为主题。“硬核”是当下时代和大环境带给中国新经济企业的挑战和机遇,一方面要求企业关注技术创新,找到自身“硬核”壁垒;另一方面要求企业回馈社会,展现更多“硬核”责任与担当。在从商业模式创新的“应用时代”迈向技术创新的“硬核时代”之际,我们与上百家硬核企业汇聚一堂,聚焦宏观政策、智能制造、半导体、新能源、新消费等热门赛道,全方位探讨各领域如何构建以创新驱动的硬核竞争力。
英特尔中国区董事长王锐以“坚持硬核创新 驱动数字经济”为主题,分享了英特尔在半导体领域的创新、思考和实践。在王锐看来,英特尔数十年来的“硬核”之处不仅在于能将制程控制在纳米级,设计聚焦在极其微观、复杂的半导体方寸之间,还能展开超大规模的制造和产业链的建设,满足全球对半导体技术的需求,激发数字世界的无限可能。
面向半导体支撑的数字化未来,英特尔将依托“无所不在的计算、无处不在的连接、从云到边缘的基础设施、人工智能”这四大超级技术力量,进一步推动全行业的创新突破与数字化变革。
以下是王锐的演讲实录,经36氪整理编辑:
大家好!我是英特尔中国区董事长王锐,非常高兴参加36氪WISE2021新经济之王大会。今天借这个机会为大家分享一下我们对“坚持硬核创新,驱动数字经济”的思考和实践。
非常遗憾,我没能来到上海现场参会。倒不是担心上海,而是担心来了上海,在我的行程码上有一颗小星星能不能再回到北京,回到北京又有多少重要的会议会被拒之门外。由此可见,我们人类的生活工作方方面面都因为疫情发生了深刻的变化。可以说,数字化的深度、广度、速度因为疫情大大加速,改变了数字经济的格局。
王锐丨英特尔公司高级副总裁、英特尔中国区董事长
在全新的数字世界里,半导体真真正正是推动万物数字化的支撑性技术,是数字世界的基石。各行各业,各种设备,都离不开半导体技术。
我们也看到,世界对半导体的需求出现前所未有的增长,而这个势头还在延续。在这其中,中国是全球规模最大、增速最快的集成电路市场。今年前三季度,中国芯片产量增长43.1%,进口增长23.7%。这是非常大的机遇,也是非常大的挑战。芯片短缺依然是我们面临的挑战之一,所以我们必须要齐心协力、共同应对。
讲到芯片,我相信大家都认知这真真正正的是一个硬核技术。既然今天我们的主题是“硬核”,我想借这个机会跟大家聊一聊名副其实的硬核公司。
作为半导体行业的领军者,在摩尔定律的启迪下,英特尔数十年如一日,一步一个脚印,创新持之以恒。大家可以看到,从1968年创立以来,英特尔在持续进行创新。这种硬核创新,体现在英特尔工程师将制程控制在纳米级,设计聚焦在极其微观、复杂的半导体方寸之间。
与此同时,英特尔又能展开超大规模的制造和产业链的建设,满足全球对半导体技术的需求,激发数字世界的无限可能。这种同时聚焦微观与宏观的挑战,充分显示了整个半导体行业的硬核精神,它就是摩尔定律。
我们从自然界最普通的原料沙子开始,制造出世界上最精密的产品——芯片。一枚芯片的制造要用到极为复杂的工艺,在世界上最洁净的芯片工厂中通过光刻、电镀、抛光、检测等数百道工序以后,再进行切割、封装、测试等过程,才能将金色的沙粒变成含有数十个亿晶体管的处理器。
今年是全球首款商用微处理器——英特尔4004问世50周年,它奠定了现代微处理器计算的基础。早在1971年,英特尔改变世界的4004芯片只有2300个晶体管,今年我们推出的第12代英特酷睿处理器,晶体管是数十亿个,这是大于5000倍的性能提升。
晶体管越做越小,我们的制造规模越来越大。为了应对日益增长的半导体需求,我们不断投入并在全球进行布局,保障稳定的供应链。英特尔的制造网络遍布美洲、欧洲、亚洲,中国是其中的重要一环。
英特尔成都工厂是英特尔在全球最大的芯片封装测试基地和晶片预处理及高端测试中心之一。英特尔全球一半以上的移动处理器和70%以上的晶片半成品,都是产自英特尔成都。这就是说全世界50%以上的移动PC都是成都制造的。
我们全球制造布局不仅服务自身,也致力于为整个产业和世界做出更大的贡献。
数字化时代,我们有四大超级技术力量,它们就是无所不在的计算、无处不在的连接、从云到边缘的基础设施和人工智能。它们正在促进千行百业的创新和突破,更深入地推动数字化变革。
面向由半导体支撑的数字化未来,英特尔聚焦于领先的产品、开放的平台、大规模的制造,通过这个三方面不断强化自己的优势,拓展我们的综合实力,驱动产业进一步的发展和持续的增长。
我们的业务真的是源于沙子,而在此之上所有的价值都是由我们的员工创造的。因此,世界级的人才也是英特尔最宝贵的资源。我们在全球有超过11万6千名员工,分布在53个国家,在这其中技术人员的比例达到89%,而软件工程师就有一万五千多名。
除了人才,我们对研发的持续投入也保障了不断创新成为可能,仅在2020年英特尔的研发投入就达到136亿美元。与此同时,我们不断收获创新的成果,在全球拥有大约七万项的专利。
我们以格鲁夫式文化,强调执行力并激励大家去实现更大的创新。我们相信:源于沙砾,成就在人。
汇聚每一位员工的力量,我们不断拓展产品和服务组合,提供端到端解决方案,更好满足数字世界的需求。我们不断强化执行力,在我们参与的每一个领域,夯实创新领先的地位,提供更好的产品与服务,为产业伙伴提供更大的帮助和支持。
英特尔CEO 帕特·基辛格上任以来,英特尔就如同以短跑的速度跑马拉松,更加开放,更加快速,并且持续创新。英特尔将一如既往挖掘元素周期表中的无限可能,持续释放硅的神奇力量,开启“硬核时代”的新篇章。接下来我为大家做更加详细的介绍:
3月,我们宣布了IDM2.0战略。这个战略由三部分组成:首先,利用英特尔全球化的内部工厂网络,为客户服务;二是扩大采用第三方代工,保证最佳的供货;三是英特尔代工服务于全球市场。
依托于英特尔领先的封装与制程技术,以及世界级IP知识产权的组合,IDM2.0战略是英特尔的独特优势。我们会利用IDM2.0设计出最好的产品,同时用最好的方式进行生产、制造,从而更好地满足全球不断增长的需求。
7月,我们公布了英特尔有史以来最详细的制程工艺和封装技术路线图,确保到2025年制程性能再度领先业界。其中,Intel 20A将凭借RibbonFET和PowerVia两大突破性的技术,开启半导体埃米时代。
8月,在英特尔架构日上发布了重大技术架构的改变和创新,面向CPU、GPU、IPU各种架构,搭建oneAPI,驱动数据中心、边缘和客户端进入下一个计算时代。这进一步增强了我们软硬协同的实力,通过XPU+oneAPI,推动异构计算,更好地应对数字世界的计算挑战。
10月,在英特尔On技术创新峰会上,我们归根溯源重新拥抱广大开发者,强调对开发者社区的承诺,以及英特尔横跨软件、硬件的开发者至上的理念,面向开发者推出了全新的工具、技术和产品。这是我们建立开放生态的一个重要体现,秉承“水利万物而不争”的生态哲学,我们将不断地扩大产业生态的深度和广度,加速数字化进程。
此外,作为一家引领科技创新的公司,英特尔将科技向善的责任观融入公司的战略和运营,渗透到员工的行为和坚守中,共同应对人类面对的重大挑战。
我们也将可持续发展的承诺,贯穿于生产运营的每一个环节,积极支持中国“碳达峰、碳中和”。今年与20年前相比,我们每生产一颗芯片所排放的二氧化碳降低了80%;同时,大力推动绿色计算,开发高能效的产品,支持绿色数据中心、5G基站的建设;我们正朝着“100%使用可再生能源,水资源全部有效利用” 等2030目标迈进。
作为奥运会全球TOP合作伙伴,英特尔正在利用AI、5G、VR、无人机等创新技术,为全球的运动员、参赛者、工作人员带来全新的体验和非比寻常的智慧奥运。两个月后将迎来2022年北京冬奥会,我们正在通过更多的方式助力实现智慧奥运,弘扬奥运精神。
英特尔所致力于成就的,正是:创造改变世界的科技,造福地球上每一个人。谢谢大家!