OpenAI 等公司开始用「合成数据」训练 AI

软餐获悉,微软、 OpenAI 和 Cohere 等人工智能公司正在转向使用 “合成数据”(synthetic data)来训练 AI 系统。这可以避免传统的 “从互联网上抓取数据” 方式带来的版权和隐私问题(报道 1报道 2报道 3)。人工智能公司 Cohere 的首席执行官艾登·戈麦斯 (Aiden Gomez) 透露,在 AI 领域合成数据的使用已经很大。例如要想训练一个高等数学模型,开发人员可以设置两个 AI 模型,分别扮演老师和学生的角色,讨论三角学等话题,然后如果有任何说错的地方,人类会纠正对话。

此外,微软研究发现,教科书似乎也是训练 AI 的好材料,经过教科书质量数据训练的编码模型,可以更好的执行编码任务。

(0)
志锋的头像志锋

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注