近日,微软与OpenAI提供技术支撑的哈佛大学法学院图书馆宣布重磅消息:其倾力打造的首个AI训练开源数据集”Institutional Books 1.0″正式对外发布。该数据集堪称学术界的一大壮举,收录了哈佛大学珍贵馆藏中的98.3万本图书,涵盖245种不同语言,总计包含惊人的2420亿个Token。目前该项目已开放访问,感兴趣的开发者和研究者可前往项目地址:https://huggingface.co/datasets/institutional/institutional-books-1.0 查阅详情。
该数据集的规模和深度令人瞩目。在内容构成方面,英语书籍占比达40%,其余涵盖其他244种语言。从出版时间来看,这些珍贵文献主要集中在19世纪与20世纪,横跨两个重要的历史时期。研究团队对所有图书进行了细致的主题分类,共计划分为20个大类。值得注意的是,该数据集不仅包含书本内容,还完整记录了每本书的元数据信息,包括作者、出版年份、使用语言及原始来源等重要细节。
哈佛大学法学院图书馆表示,这仅仅是一个开始。项目团队已制定详实的发展规划,计划持续扩充数据集内容。目前,他们正与波士顿公共图书馆展开深度合作,着手将”数百万份”珍贵的历史报纸进行数字化处理,并整合到现有数据集中,进一步丰富和提升该平台的研究价值。
展望未来,哈佛大学法学院图书馆还酝酿着更具前瞻性的计划。他们致力于开发一系列AI辅助工具,旨在提高馆藏文献的整理效率与开放共享水平。同时,相关团队也正在推动建立”负责任的数据使用规范”,以确保这一宝贵资源能够被学术界和研究者合理利用,最大化地造福社会。
© 版权声明
文章版权归作者所有,未经允许请勿转载。