Anthropic斥资数百万美元购买并销毁大量书籍以训练AI模型Claude

AI资讯2个月前发布
12 0

6月26日,外媒Ars Technica报道称,人工智能公司Anthropic被曝曾耗资数百万美元,通过拆解实体图书并扫描成数字文件来训练其AI助手Claude。这些图书在被扫描后即刻销毁,仅用于内部数据使用。

法庭判决书显示,2024年2月Anthropic曾聘用Tom Turvey负责”获取全世界的图书”。Turvey此前参与过谷歌图书项目,公司希望通过其专业知识大规模收集图书资源。这一策略明显意图复制谷歌当年被法院判定为合理的图书数字化模式。

Anthropic斥资数百万美元购买并销毁大量书籍以训练AI模型Claude

法官William Alsup最终裁定,Anthropic的扫描行为构成合理使用。理由是公司合法购买了图书,并在扫描后立即销毁原件,且数字文件仅用于内部训练。这种转换方式被视为具有”转化性”特征的合理使用。然而,早期未经许可的大规模扫描行为削弱了其合法性。

AI模型的训练需要海量优质文本数据作为支撑。研究人员必须将数以亿计的词语输入神经网络进行反复训练,以便建立词语与概念之间的关联关系。

训练数据的质量直接影响AI输出结果的准确性。相比网络评论等碎片化信息,经过编辑的书籍和文章能够显著提升AI的语言理解能力。

由于获取授权耗时费力,多数AI公司更倾向于寻找替代方案。美国版权法中的”首次销售原则”为这一行为提供了法律空间:购买实体书后,买家有权自行处理这些图书。

与同行类似,Anthropic最初也选择了绕开版权授权的捷径。从法庭材料可知,公司创始人曾主张使用未经授权的电子书来节省时间和成本。

后来,出于法律风险考量,公司转为大量收购二手书用于扫描。通过破坏式处理流程:拆封、裁剪后整批扫描成机器可读的PDF文件,最后将所有实体书废弃处理。整个过程耗资数百万美元。

Anthropic的目标书籍主要是零售渠道的旧书。然而,更优的技术方案其实早已存在。例如,Internet Archive已开发出无需破坏原书的数字化技术。本月早些时候,OpenAI和微软宣布与哈佛大学图书馆合作,计划使用近百万本公版书籍训练AI模型,同时完整保存每本书籍。

© 版权声明

相关文章