哈佛大学重磅发布开源AI训练数据集\”Institutional Books 1.0\”，涵盖98.3万本馆藏图书

AI资讯1年前 (2025)发布

98 0 0

近日，微软与OpenAI提供技术支撑的哈佛大学法学院图书馆宣布重磅消息：其倾力打造的首个AI训练开源数据集”Institutional Books 1.0″正式对外发布。该数据集堪称学术界的一大壮举，收录了哈佛大学珍贵馆藏中的98.3万本图书，涵盖245种不同语言，总计包含惊人的2420亿个Token。目前该项目已开放访问，感兴趣的开发者和研究者可前往项目地址：https://huggingface.co/datasets/institutional/institutional-books-1.0 查阅详情。

$哈佛大学重磅发布开源AI训练数据集\$

该数据集的规模和深度令人瞩目。在内容构成方面，英语书籍占比达40%，其余涵盖其他244种语言。从出版时间来看，这些珍贵文献主要集中在19世纪与20世纪，横跨两个重要的历史时期。研究团队对所有图书进行了细致的主题分类，共计划分为20个大类。值得注意的是，该数据集不仅包含书本内容，还完整记录了每本书的元数据信息，包括作者、出版年份、使用语言及原始来源等重要细节。

哈佛大学法学院图书馆表示，这仅仅是一个开始。项目团队已制定详实的发展规划，计划持续扩充数据集内容。目前，他们正与波士顿公共图书馆展开深度合作，着手将”数百万份”珍贵的历史报纸进行数字化处理，并整合到现有数据集中，进一步丰富和提升该平台的研究价值。

展望未来，哈佛大学法学院图书馆还酝酿着更具前瞻性的计划。他们致力于开发一系列AI辅助工具，旨在提高馆藏文献的整理效率与开放共享水平。同时，相关团队也正在推动建立”负责任的数据使用规范”，以确保这一宝贵资源能够被学术界和研究者合理利用，最大化地造福社会。