> 业界 >

证监会姚前谈大模型生态建设:标准制定和数据治理双管齐下,构建大模型训练数据要素市场

时间:2023-07-10 16:14:32       来源:21世纪经济报道

21世纪经济报道记者雷晨 北京报道

7月10日,中国证监会科技监管局局长姚前在《中国金融》发表署名文章,文章分析了大模型的进化与升级路径,并通过探讨大模型和中小模型可能的交互方式,阐述大模型的数据生态和模型生态建设。


(相关资料图)

对于业界而言,上述文章为保障产业安全健康发展、规避数据和技术风险以及构建可持续发展的大模型生态提供了相关思路。

谈及大模型的升级与进化路径,姚前表示,从长期视角来看,大模型的进化衍生出众多分支。最近一段时间,大模型迭代不仅速度加快,而且参与者也越来越多,基本上涵盖了所有的大型科技公司,生态的多样性和复杂性已初步显现。

他认为,目前大模型升级迭代过程中的底层算法框架并没有本质的变化,算力投入以及训练数据的丰富仍然是其快速进化的关键,只不过最新的GPT4呈现出一些新的特征。一是算法方面更适配具体的下游任务。二是具备更规范的训练数据治理能力且支持多模态。三是构建更强大的算力集群,以满足更多的训练数据集和更大的输入参数。

基于以上背景,姚前提出,需要建立一个各类模型健康交互和协同进化的生态,以保证大模型相关人工智能产业可以在各个应用领域成功落地。

他表示,GPT类大模型功能强大,在未来会成为许多行业如互联网、金融、医疗等领域的重要基础设施之一。但在具体应用落地的过程中,GPT类大模型还会面临一系列挑战。一是如何确保训练数据的数量与质量。二是如何降低大模型的运行和维护成本。

而由于大模型的性能依赖于训练数据的质量,且模型在不同落地场景下所需的底层技术规格也不尽相同。因此,姚前认为,构建大模型持续发展、健康交互的良好产业生态,必须推进大模型训练数据与底层技术的标准化,加快模型的迭代与落地。

一方面,大模型自身的训练数据集以及定义的数据服务接口(API),将会成为行业的事实标准,而接入大模型的各种应用都必须遵循该标准。目前,模型“预训练+微调”已经成为行业统一的标准流程和范式。在此基础上,结合具体的应用场景和专业数据,可以进一步定制和优化各领域各行业的小模型。从某种程度上来说,大模型训练数据和数据服务接口标准,将会成为下一代国际标准的核心之一。

另一方面,处理大模型训练数据的底层技术所需的工具链也必须产品化和标准化。大模型在标准化技术服务的有力支撑下,可输出硬件适配、模型蒸馏和压缩、模型分布式训练和加速、向量数据库、图数据库、模型互联互通等技术方案,提供自然语言处理、计算机视觉、跨模态、知识图谱等各类能力,让更多的企业、开发者可以低门槛地将大模型应用于自身业务并构建行业垂直模型,从而促进人工智能在各领域广泛落地。

值得注意的是,大模型的开发和应用虽然会对产业和经济发展带来巨大红利,但如果不加以合理管控,也会给国家和产业安全带来风险。一是数据泄露风险。大模型的训练、落地,都需要以海量的数据支撑,其中包含行业或个人敏感信息的数据。如果没有合理的数据脱敏和数据托管机制,则可能造成数据泄露,给行业和个人造成损失。二是模型安全风险。比如,插件可能被植入有害内容,成为不法分子欺诈和“投毒”的工具,危及社会和产业安全。

基于此,姚前提出了以下三方面的建议:

一是以大模型训练数据为抓手,标准制定和数据治理双管齐下。通过制定模型应用规范,统一接口标准,促进行业规范化发展。可考虑对模型的合成数据进行托管,以加强监督,保障数据内容合规、权益清晰、流通顺畅。同时完善法律法规,优化政策制度,以多种途径与方式形成监管合力,严防恶意篡改模型和渗入有害数据等行为。

二是构建大模型训练数据要素市场。厘清训练数据采集处理、合成数据服务、大小模型互联互通、应用API之间的产业链。加快数据要素市场建设,为训练数据提供市场化定价,以利权益分配与激励。

三是构建大小模型共生发展、相互促进的良好生态。总体来看,目前国内外主流大模型在算法层面尚不存在代际差,但是在算力和数据方面存有差距。建议在通用领域大力支持国内头部科技企业研发自主可控的国产大模型,同时鼓励各垂直领域在大模型基础上,利用开源工具构建规范可控的自主工具链,既探索“大而强”的通用模型,又研发“小而美”的垂直行业模型,从而构建基础大模型和专业小模型交互共生、迭代进化的良好生态。

标签: