专家解读 | 任奎：深化推进生成式人工智能服务安全治理

作者: 编辑: 贺茜棉信息来源:全国网安标委发布时间: 2024-04-07 点击数:

当前，以生成式人工智能为代表的人工智能技术进入发展的快车道，对全球经济社会发展和人类文明进步产生了深远影响。与此同时，国内外的生成式人工智能服务生态正处于飞跃发展时期，其便捷的使用方式、多样的应用场景和高质量的生成内容，吸引了全球众多用户，激发了人类内容创作的潜能，释放了人工智能产业的创新发展活力。然而，世界各国对于生成式人工智能服务仍缺乏明确具体的管理实施规范，难以有效应对生成式人工智能带来的各种风险和复杂挑战。2023年7月，国家网信办等七部门联合发布了《生成式人工智能服务管理暂行办法》（以下简称《办法》），是全球最早全面监管生成式人工智能的政策文件。为指导生成式人工智能服务提供者及相关主管部门落实《办法》要求，全国网络安全标准化技术委员会发布《生成式人工智能服务安全基本要求》（以下简称《要求》），为推动生成式人工智能向上向善发展提供了细致具体的实施标准。

一、立足现有管理办法，落实生成式人工智能服务安全要求

《要求》作为《办法》的支撑文件，是我国首个专门面向生成式人工智能服务提出具体安全要求的规范性文件。《要求》紧密衔接了现有的相关法律法规对于生成式人工智能发展的安全要求，为响应《办法》中对于维护国家安全和社会公共利益，保护公民、法人和其他组织的合法权益的要求，提供了切实可行的实践指南。《要求》进一步明确了服务提供者在语料安全、模型安全、安全措施以及安全评估等多个方面需要遵循的基本要求。一方面，这些基本要求不仅涵盖了当前全球主要生成式人工智能服务暴露出的各类安全问题，而且是对《办法》中关于服务提供者以及使用者，应当遵守法律、行政法规，尊重社会公德和伦理道德的要求的具体和深化。另一方面，考虑到生成式人工智能逐步应用于服务关键信息基础设施的发展前景下，《要求》前瞻性地提出了对配套保护措施，尤其是对需要重点保障的生成内容准确性与可靠性方面的安全要求。同时，为预防生成式人工智能服务被低门槛滥用，《要求》在个人信息防护、未成年人保护等多个方面，规定服务提供者需要充分论证生成式人工智能服务的必要性、适用性和安全性。由此可见，《要求》的发布响应了《办法》对于生成式人工智能发展和应用的总体要求，为未来生成式人工智能服务的健康发展提供了坚实的治理基础。

二、完整覆盖服务流程，明确服务环节安全责任边界

《要求》对包括语料来源安全、语料内容安全、语料标注安全、模型安全、安全措施在内的多个支撑生成式人工智能服务整体安全的重要环节，划分了安全责任边界，这些要求对服务提供者需要履行的责任和义务做出了明确的规范。此外，《要求》从构建关键词库、测试题库、服务安全检测模型等多个方面，提出对内容安全的评估和管控要求。这些要求不仅能帮助服务提供者主动规避安全风险，同时也能促进服务使用者建立对服务的良好使用习惯。从实践看，《要求》从长远而言帮助人工智能企业逐步建设分工明确的安全团队，包括减少模型滥用的安全系统团队、专注模型价值观安全的对齐团队、管控模型风险的准备安全团队等。综合来看，《要求》体现了《办法》中对促进创新和依法治理相结合的原则，为引导新技术和新应用的规范发展提供了有益的范例。

三、精准刻画安全风险，建立多维度测试评估量化标准

《要求》将生成式人工智能服务的安全管理落到实处，使生成式人工智能服务的管理工作更加明确、可控、合规。一是《要求》强调把控风险来源，落实监管细节。当前生成式人工智能模型的训练数据来源复杂，在海量质量参差不齐的网络数据之外，也有大量人工标注数据。针对这类语料安全风险，《要求》通过场景拆解分析，划分了覆盖涉及语料和生成内容的共5类31种主要安全风险，为生成式人工智能服务安全制订了具体的检测方法和量化指标。二是《要求》充分尊重了当前人工智能技术实践的复杂性，对不同的语料数据来源、模型应用模态和服务适用目标采取了细化的标准，实践了包容审慎、鼓励创新的治理策略。三是《要求》坚持安全原则，严守社会红线。《要求》明确针对危害国家安全、社会稳定、人民群众合法权益的风险划定了红线，给出了安全实践方法，以安全基线保障人工智能更加稳定有序发展。

四、面对全新安全挑战，贡献人工智能治理中国方案

人工智能安全治理议题在全球受到高度重视，许多国家已经相继出台相关法律法规，但均亟需人工智能的安全治理标准工作予以支撑。《要求》是我国在以标准支撑法律法规，体现人工智能治理精神的良好案例，为全球人工智能治理贡献了经验和智慧，为各国、各地区开展类似工作提供了重要参考。《要求》发布后，为进一步推进我国生成式人工智能服务在各关键领域的应用转化，建议围绕标准化工作，大力汇聚相关服务提供者的数据优势、主要研究机构的技术优势，构建全面性、代表性、共享性的服务安全测试数据基础，为服务提供者提供公平可信的评估渠道。同时，建议针对各行业的代表性场景，建立具有领域通用性、符合我国制度文化特色的评估指标体系，为我国生成式人工智能技术应用提供可量化的参考标准。