苹果:AI训练符合道德且尊重出版商权益

AI资讯1个月前发布
19 0

7月21日消息,据外媒Apple Insider报道,苹果公司在最新发布的一篇研究论文中再次明确表示,其智能模型的训练过程并未涉及任何非法网络抓取的数据。

在这篇论文中,苹果详细阐述了其数据采集原则。公司指出,如果内容提供商不同意其数据被抓取用于模型训练,苹果绝不会进行相关操作。“我们认为,使用多样且高质量的数据对于训练我们的模型至关重要。这些数据来源包括我们从出版商处获得授权的数据集、公开可用或开源数据集中的信息,以及通过我们的网络爬虫Applebot抓取的公开内容。”

苹果:AI训练符合道德且尊重出版商权益

值得注意的是,苹果强调其在训练基础模型时,绝不会使用用户的私人数据或与用户交互相关的记录。同时,公司采取了严格的过滤机制,用于移除个人身份信息,并筛除粗俗或不安全的内容。

论文的核心内容聚焦于苹果是如何执行这一抓取过程的,特别是Applebot系统如何在复杂的网络环境中确保获取高质量的有效信息。同时,苹果也回应了关于版权的问题,重申其始终坚持尊重版权所有者的权益。

根据该论文的内容,苹果表示:“我们承诺遵循最高的道德标准来进行数据抓取,并严格遵守被广泛采用的robots.txt协议。这意味着内容发布商可以自行决定是否允许其内容被用于训练我们的生成式基础模型。发布商还可以对Applebot能够访问哪些页面以及这些页面如何使用进行详细控制,同时这些页面仍可在Siri和Spotlight的搜索结果中正常显示。”

这些“精细控制”机制实际上依赖于长期使用的robots.txt系统。虽然这并非严格意义上的隐私保护标准,但已被互联网行业广泛采用。网站管理员通常会在其网站根目录下放置一个名为robots.txt的文本文件。

对于AI系统而言,如果检测到该文件存在,它将自动避免抓取该站点或文件中明确列出的特定页面。遵守robots.txt协议相对容易实现,而像OpenAI这样的公司也曾公开表示会遵循这一规定。

如需阅读完整论文内容,可参考以下链接:

  • https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models_tech_report_2025.pdf

© 版权声明

相关文章