7月22日,微软在巴黎宣布了两项重要计划,旨在保护欧洲的语言和文化遗产,并助力其在全球人工智能领域的竞争地位。这些新举措是对公司此前提出的”欧洲数字承诺”的深化与升级。该承诺聚焦于人工智能、云基础设施建设、数据隐私保护、网络安全性提升以及增强欧洲整体数字化竞争力等四大核心领域。
欧洲大陆拥有超过200种官方语言,承载着数千年的文化积淀。这些语言不仅支持创意产业、商业活动和科技创新,还促进了跨区域贸易与交流。然而,随着互联网内容逐渐以英语为主导,并且多呈现美式视角,欧洲的文化和商业面临着被边缘化的风险。
这种数据失衡在AI模型评估中表现得尤为明显。以开源模型Llama 3.1为例,其在希腊语测试中的得分比英语低出15分以上,在拉脱维亚语测试中更是低了25分之多。这种”英语最优、其他语言依次递减”的现象,在主流大语言模型的基准测试中普遍存在。
为改变这一现状,微软计划在法国斯特拉斯堡的创新中心组建专门团队,基于Microsoft Azure平台开发和整理多语言数据集。公司开放创新中心(MOIC)与AI for Good Lab的团队将携手欧洲各地的文化机构、学术界和技术企业,重点增加对10种使用人口较少的语言的数据收集工作,包括爱沙尼亚语、阿尔萨斯语、斯洛伐克语、希腊语和马耳他语等。
微软还向公众发出号召,启动”AI for Good Lab”平台的项目征集活动。所有符合条件的入选项目都将获得Azure积分和技术支持。该申请通道预计于2025年9月1日正式开放。
在文化遗产数字化方面,微软计划扩大其”Culture AI”项目规模,与法国文化部及Iconem等专业机构合作,为拥有862年历史的巴黎圣母院创建高精度数字复制品。此前,该计划已成功完成了希腊古奥林匹亚、法国圣米歇尔山、罗马圣彼得大教堂和诺曼底登陆海滩的数字化重建工作。
微软强调,这些新举措是建立在其40余年的本地化经验基础之上。目前Windows系统支持90多种语言,覆盖欧盟所有官方语言以及巴斯克语、加泰罗尼亚语等地区性语言;Microsoft 365的Office界面也提供30多个欧洲语言版本。通过将欧洲的语言和文化资产深度融入AI与云平台,微软希望既能够守护欧洲的文化遗产,又能为当地的企业和公民在数字时代赋能。
公司特别指出,这些行动都是以支持者的角色展开的:提供开放数据、工具和技术专长,而不是输出任何专有资产。这一立场体现了微软对欧洲语言文化保护与传承的一贯重视。