AI数据之战：大模型的“燃料”还能烧多久？

发布日期：2024-09-19 18:20

来源类型：微信热文 | 作者：许戈辉

【澳门金牛版正版资料大全免费】【新澳开奖记录今天结果】【2024年新澳门王中王资料】【管家婆最准一肖一码】【新澳彩开奖结果查询】【今晚澳门特马开的什么号码】【4949澳门免费资料大全特色】【2024今晚澳门特马开什么号】【2024澳门挂牌正版挂牌今晚】【2O24澳彩管家婆资料传真】

【494949澳门今晚开什么】【2024新澳免费资料】 【资料大全正版资料2024年】

真实数据即将耗完，合成数据训练成替代品？

作者／ IT时报记者贾天荣

编辑／王昕

AI时代，高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。

近日有外媒报道，OpenAI使用所有公开可用的数据来训练ChatGPT，包括来自互联网的书籍和文章。事实上，在大模型发展如火如荼的当下，任何大模型公司对于高质量语料的需求都不会停止。谷歌、Meta、OpenAI、Anthropic和微软等领先的科技公司都在争相寻找新的数据来源。Meta甚至一度考虑收购世界上最大的出版社之一西蒙与舒斯特公司。

但作为人工智能大模型的“燃料”，高质量语料正在面临“枯竭”。

加州大学伯克利分校计算机科学教授斯图尔特・罗素就曾发出警告，ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。随着越来越多出版商指责大模型公司窃取受版权保护的数据，一场知识产权的纷争也即将打响，获取数据正变得越来越难。

在2024年世界人工智能大会（WAIC2024）上，如何有效供给高质语料数据，以支持大规模AI模型的产业应用，成为业界内外专家热烈讨论的核心议题之一。面对数据稀缺与模型旺盛需求之间的矛盾，学界与业界正在探索可持续的解决方案，以确保AI健康发展的同时，兼顾创新与知识产权的平衡。

“做大模型应该像造火箭”

“如果我们所有数据都放在一个表格里，那么做数据分析的门槛和成本都会比较低。”在中国科学院院士鄂维南看来，如何将大量的非结构化数据转化为结构化形式，以降低数据分析门槛与成本，成为亟待解决的问题。

非结构化数据，是如文本、图片、语音及视频等数据，因其复杂性和多样性，给大模型的数据分析带来巨大挑战。

鄂维南以全球第一个AI数据库——MyScale数据库为例，该数据库刚刚获得了2024WAIC的硬核大奖SAIL奖，能在同一系统中支持海量结构化、向量、文本、时序、图片等各类异构数据的高效存储和联合查询。他认为，这是目前国际上综合性能最好、功能最强的AI数据库。

鄂维南强调，AI的发展需以“大模型+大数据库”双轮驱动。这意味着所有数据资源应集中于一个数据库内，通过大模型的处理，实现数据价值的最大化。同时，利用专用知识库和高质量数据，低成本地批量生产智能体或小型模型。这一策略不仅适用于特定行业，还能服务于整个科研行业，涵盖化学、材料、生物等多个领域。

针对当前数据处理工具的缺失，院士团队正致力于打造一系列工具，以弥补在数据清洗、整理及训练大模型方面的空白。此外，鄂维南院士还提出了一种创新的“忆立方模型”，旨在通过知识分层处理，减少模型规模，降低训练成本。该模型已在上海临港新片区的试点项目中得到验证，其将模型规模降低10倍，在降低模型规模与成本方面具有潜力。

“我们在数据库方面是有优势的，在高性能计算方面还有很大空间没有挖掘，就像当年造火箭一样，每一样都搞不过别人，但是我们希望整个系统不比别人差。”鄂维南院士呼吁，中国应从底层逻辑出发，深入探索AI的基本原理，并从系统角度布局AI发展，涵盖算力、数据、模型与高性能计算等多个方面。他强调，单纯堆砌大模型并非长久之计，需从整体系统优化入手。

华为上海代表处战略官房思哲也表示，华为在训练其盘古大模型时，也面临着和所有大模型玩家一样的问题：“数据的规模要大，质量要高，种类也要多元化，同时需要这些数据能够以一定的配比形成体系化。”房思哲特别提到了专业知识类和行业知识类数据的获取难度，尤其是在外文数据方面。

事实上，各方对于数据获取的探索从未停止。7月6日，“语料筑基智生时代”2024WAIC语料主题论坛上，上海市级语料公司库帕思携手大模型语料生态伙伴，集中发布了一批大模型语料成果，包括语料运营平台1.0上线、首批十大高质量语料产品发布等。其中，“语料运营平台1.0”实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。

为进一步激发市场主体语料创新活力，增强供给侧能级，加速医疗健康、城市交通、消费零售、金融、影音等重点行业的大模型产业发展，库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院、上海工创中心、汇纳科技、万达信息、DGC数传集团、文远知行、文因互联、上海电科智能、海天瑞生集中发布了十大语料数据产品。此外，本次论坛中还发布了金融、生命健康、教育三项行业语料术白皮书。

数据标注用“魔法”提纯“魔法”

高质量数据的获取，离不开大量的标注工作，一段时间内，数据标注员的需求也随着AI技术的发展而大幅增加。

“AI已经进入了2.0时代。”北京星尘纪元智能科技有限公司总裁章磊回顾了2019年与国家融媒体实验室的合作，当时双方致力于语料的深度清洗、详尽标注与规则制定，三年时间里，这项工作消耗了大量的人力资源，每一句话、每一个实体、每一条问答规则都经过了细致入微的标注。

然而大模型出现之后，这一切开始发生变化。大模型的出现，意味着AI系统本身已具备了相当程度的智能，能够处理复杂的自然语言处理（NLP）任务，无需人工再深入到每一个细节之中：“对我们来说，这看似让工作变得简单，但也带来了全新的挑战。”

大模型的训练和优化，对数据的维度和认知深度提出了更高要求。与此同时，尽管需要人工介入的人员更精简，但对人员的要求却发生了质的飞跃。现在需要的是更高层次的人才，通常具备硕士研究生以上的学术背景，才能承担起大模型语料的深入体系设计工作。

在标贝（青岛）科技有限公司联合创始人兼首席技术官李秀林看来，大模型的出现不仅改变了数据需求的本质，还催生了新的供需动态和合作模式，同时也重新定义了模型在数据生产过程中的角色。

首先，从需求侧来看，大模型对数据规模和类型提出了全新要求。传统的数据需求主要集中在特定场景的精细标注，而现在，无监督学习所需的海量语料成为关键。这不仅增加了数据筛选和清洗的复杂度，还要求更深层次的数据加工技术，以确保数据质量满足大模型训练的高标准。

其次，各行业领域的专业语料在大模型的应用中扮演着至关重要的角色。处理这些领域的语料需要深厚的行业知识和专业技能，远非简单的数据标注所能比拟。这要求数据处理团队不仅要具备技术实力，还要深入了解特定领域的专业知识，才能有效挖掘和利用领域语料的价值。

随着大模型的普及，数据的供应方也在悄然变化。传统的数据公司不再是唯一的来源，许多拥有行业数据的团队或组织开始直接参与到数据供给中来。然而，如何将这些语料有效整合进大模型，成为一道亟待解决的难题。

大模型在数据生产过程中的作用发生了根本性变化。它不再仅仅是被动的数据消费者，而是成为数据生产的参与者和优化者。

由此，自动化标注的发展与应用也成为AI领域的一大热点，其目的是减少人工参与、提高数据处理效率和降低成本。章磊表示，在自动化标注的初期，预标注阶段是主流。借助已有模型的预测能力，数据被初步标记，随后交由人工审核修正，以确保标注的准确性。

然而，随着技术的演进，自动化标注不再局限于简单的模型预测。星尘纪元等企业投入大量资源，自主研发了50余种适用于各类场景的自动化标注工具和算法，实现了任务细分与专项处理，显著提升了标注效率与质量。另一方面，通过分析视频序列中的时序关系，前后帧数据互相监督，实现自我校正，显著提高了动态场景下的标注精度。

章磊表示，理想状态下，自动化标注有望覆盖90%以上的数据处理需求，甚至逼近99%的自动化水平。但在面对复杂或异常数据时，实际的提效比例只有30～50%，章磊认为，AI大模型和多模态技术的驱动下，自动化标注的准确性和覆盖率将持续提升，自动化与人工相结合的模式将成为常态。

李秀林指出，数据标注实际上是一个非常好的人机协同场景，两者相辅相成的过程。随着技术的发展，越来越多的标注工作从完全依赖人工转变为机器辅助或主导，人工的角色更多地转向了质量控制和复杂问题的解决。

在业务实践中，标贝科技经常面临新的、更复杂的标注需求，这些需求往往超出了现有模型的能力范围。面对这种情况，公司在初始阶段可能需要纯人工介入，随后工程师根据任务需求开发和迭代模型，逐步提高自动化标注的比例。这一过程体现了从“纯人工”到“人工为主导”，再到“机器为主导”，最终可能达到人工仅负责质检，甚至完全无需人工干预的演变。

合成数据完全取代真实数据？

科技巨头们已经在多个场景探索合成数据的应用，如英伟达的元宇宙平台Omniverse拥有合成数据能力omniverse replicator；亚马逊使用合成数据来训练、调试其虚拟助手Alexa，以避免用户隐私问题；微软的Azure云服务推出了airSIM平台，创建高保真的3D虚拟环境来训练、测试AI驱动的自主飞行器……

目前，GPT宣称已经用完了人类互联网的数据，英伟达的Nemotron-4也宣称用了98%的合成数据，而人工标注数据仅有2%。未来，合成数据是否会完全取代真实数据？

多位专家都认为，合成数据和真实数据各有优势和局限性，它们在AI模型训练中的角色和重要性将根据具体的应用场景和需求而变化。在未来，合成数据和真实数据很可能会并存，形成互补，共同推动AI技术的发展。

“合成数据对于大模型训练的重要性是毋庸置疑的。”房思哲透露，华为已经在大模型训练和自动驾驶等领域中使用了合成数据，在对真实世界细节要求不高的情况下，合成数据可以有效补充或替代真实数据，“但在一些对真实性要求更高的场景下，我们觉得合成数据可能使用起来是要谨慎的。”

房思哲表示，行业数据往往需要在真实世界中生成，这涉及人类活动、经验和观察，而这些是合成数据难以完全捕捉的，因此，即使基础大模型可以从合成数据中获益，行业大模型仍然需要大量高质量的真实数据来训练，以确保其在特定应用场景下的准确性和可靠性。

中云开源数据技术（上海）有限公司创始人、CEO陈刚则认为，就工业领域而言，合成数据不会成为主流。他的理由主要基于两个方面，首先，工业数据并非缺乏，而是受限于版权、产权等因素，导致现有数据未能得到充分利用；其次，合成数据在特定场景下（如核电站故障预测）具有应用价值，但在大多数情况下，特别是对于大模型而言，合成数据的迭代可能导致信息失真，使其在工业应用中难以达到实际效果。返回搜狐，查看更多

责任编辑：

四叶草：

6秒前：

拉克尔·加德纳：

2秒前：他的理由主要基于两个方面，首先，工业数据并非缺乏，而是受限于版权、产权等因素，导致现有数据未能得到充分利用；其次，合成数据在特定场景下（如核电站故障预测）具有应用价值，但在大多数情况下，特别是对于大模型而言，合成数据的迭代可能导致信息失真，使其在工业应用中难以达到实际效果。

格里戈里斯·埃万耶拉托斯：

8秒前：AI时代，高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。

陈鹭宏：

5秒前：7月6日，“语料筑基智生时代”2024WAIC语料主题论坛上，上海市级语料公司库帕思携手大模型语料生态伙伴，集中发布了一批大模型语料成果，包括语料运营平台1.

微信热文

奇幻新剧《藏海花》开播，看完4集后，我要说：文咏珊押对了宝

人民币反击！美国多州宣布货币独立，马斯克警告：美国正加速破产

头部网红“雪梨”被举报聚众吸毒，杭州警方通报详情！

特稿丨奥运冠军“下班”以后

AI数据之战：大模型的“燃料”还能烧多久？

AI数据之战：大模型的“燃料”还能烧多久？

推荐文章