新闻中心 > 要闻

首个西班牙语人工智能模型MarIA诞生

西班牙网页档案馆为自然语言处理模型提供训练基础

作者：冯佳芪编译

来源：中国档案报

2022-02-09 星期三

    西班牙国家图书馆与巴塞罗那超级计算中心联合开发了基于海量数据制作而成的首个西班牙语人工智能模型MarIA。

    西班牙国家图书馆十多年来一直致力于追踪和归档所有使用西班牙语的网站信息，至今已保存有超过1PB（拍字节）的信息。巴塞罗那超级计算中心在西班牙国内的超级计算领域具有领导地位，负责为西班牙和欧洲的研究人员提供基础设施和超级计算服务，为社会聚合知识和技术。西班牙网络档案馆主要为国家图书馆提供网络典藏，在MarIA项目开发过程中，共采集了大约4万个网站的信息。

    创建人工智能模型的第一步是构建单词和短语语料库。此次约5.9万GB（吉字节）的西班牙国家图书馆网络档案被用于创建MarIA语料库。语料库创建完毕后，巴塞罗那超级计算中心研究人员使用神经网络技术对MarIA进行训练以学习使用西班牙语。该训练长达18.4万个处理器小时和超过1.8万个GPU小时。经过训练后，MarIA能够精确掌握语言、词汇以及表达和写作机制，不仅能够理解抽象概念，而且能够理解上下文含义。

    值得关注的是，语料库在人工智能模型开发和训练过程中起到了举足轻重的作用，是训练人工智能系统的基础。该语料库超过了当前可用语料库的大小和质量几个数量级，极大地丰富了西班牙语和西班牙国家图书馆档案数字遗产语料库，在未来也可为多种应用提供服务，例如建立时间图像分析语言的演变、理解数字社会和训练新模型。在推出通用模型后，巴塞罗那超级计算中心文本挖掘团队正在努力扩展语料库，还计划使用来自拉丁美洲的不同语言的文本生成训练有素的模型，包括西班牙语、加泰罗尼亚语、加利西亚语、巴斯克语、葡萄牙语和西班牙语。通过MarIA这样的项目，西班牙正在向人工智能迈出坚定步伐，该系统远不止是一种交流手段，更是看待数字化世界的新方式。

    原载于《中国档案报》2022年2月7日总第3789期第三版

责任编辑：李聪

版权所有，未经许可，不得转载。