软餐获悉,Google 副总裁 Danielle Romain 近日撰文称,在 30 年前创建的网络标准 robots.txt 已被证明是网络出版商控制搜索引擎抓取其内容的一种简单而透明的方式,但随着 AI 新技术的出现,现在是时候探索新的 “机器可读方法” 时候了,这将帮助网络发布者 “选择和控制新兴人工智能和研究用例” 。 Google 正在通过官网上的表单征集有关的意见和讨论。
robots.txt 是一种存放于网站根目录下的 ASCII 编码的文本文件,它告诉搜索引擎蜘蛛可以爬取哪些内容,以及哪些内容禁止被爬取。
有关 AI 产品未经许可盗取内容或数据的指控越来越多。两位知名作家指控 OpenAI 的 ChatGPT 盗取了他们的作品;16 名个人起诉微软和 OpenAI 盗用了他们的个人数据。