习近平总书记指出,“人工智能带来前所未有发展机遇,也带来前所未遇风险挑战。要把握人工智能发展趋势和规律,加紧制定完善相关法律法规、政策制度、应用规范、伦理准则,构建技术监测、风险预警、应急响应体系,确保人工智能安全、可靠、可控”。当前,人工智能正从“会说话”向“会办事”加速演进,其基础性、平台性、通用性特征日益凸显,已成为推动新一轮科技革命和产业变革的核心驱动力。与此同时,人工智能安全风险呈现出隐蔽性、系统性、跨域性等新特点,传统治理模式面临严峻挑战。标准化作为人工智能安全治理的重要抓手,是衔接技术创新、产业发展与政府监管的关键纽带,对统筹发展和安全,推动人工智能健康有序发展具有重要意义。
通用人工智能时代的发展图景与安全新挑战
纵观信息技术发展脉络,互联网实现信息连接与分发,人工智能则指向知识运用和创造,这一根本性变化,要求对人工智能治理定位作出系统性调整。近年来,人工智能技术持续进化,发展路径从通用与专用的“二元对立”迈入“通专融合”新阶段。通用人工智能已超越单一技术概念,成为强泛化能力、可快速学习并生成新知识,能完成各领域深度专业化任务的智能形态。
从应用演进的角度看,人工智能的发展经历四个重要阶段。第一阶段是在信息完整、规则明确的领域超越人类专家,如围棋、象棋等棋类对弈;第二阶段掌握所有具备标准答案、可通过压缩式理解获取的知识,实现对人类水平的超越;第三阶段在具备完善验证机制的场景落地应用,如代码编写、数学函数求解等,当前已得到充分验证;下一阶段,人工智能将迈向模糊任务领域,即处理信息不完整、缺乏标准答案,甚至难以验证的复杂问题,如企业战略咨询、科学新发现等,从而进一步拓宽人类认知的边界。在这一阶段,科学发现被视为对人工智能的关键考验。
技术快速发展伴随着安全风险的同步演化。人工智能发展要遵循“AI-45度平衡律”,即安全性与系统能力必须沿45度斜线协同演进,任何长期的偏离都将增加灾难性错位风险。安全是发展的底线,不能为了追求性能而牺牲安全,也不能因为过度强调安全而阻碍技术创新。
当前,人工智能安全治理主要面临两大挑战。一是智能技术加速迭代带来新型治理难题。大模型迭代周期不断缩短,技术窗口期转瞬即逝,全球竞争格局下企业普遍优先追求快速部署,开源生态的快速发展进一步降低了技术门槛。与此同时,现行治理框架仍以静态规则为主,安全评估往往滞后于产品上线,事后追责机制作用有限。特别是随着智能体技术的兴起,智能系统具备自主执行、分散部署、跨平台运行等特性,使得安全风险更容易在系统间传播或被恶意利用,责任主体难以清晰界定,风险预警和处置难度显著增加。二是真实应用场景复杂,验证体系亟待完善。在能源、医疗、金融、交通等行业,人工智能技术的可靠性至关重要,但当前人工智能评测多聚焦于一般性能指标,在行业特定安全能力与业务能力上缺少基于真实数据、真实场景、真实反馈的系统验证。现有测试用例多由开发者预设,仅能覆盖已知问题,而实际部署中存在大量涌现式、非预期场景。性能达标不等于场景适配,更不等于安全可用,这一矛盾导致部分企业对人工智能规模化应用持观望态度,制约了技术价值的充分发挥。
人工智能安全治理从“外生安全”转向“内生安全”
人工智能安全风险可以划分为基准、中等和极端三类,应针对不同类型的风险采取差异化的治理策略。对于基准风险,如幻觉、“越狱”、生成内容合规等显性风险,重点实施治理路径,提升模型可控边界和安全推理能力;对于中等风险,如高敏行业应用中的误操作、决策失误等,重点探索赋能路径,构建安全可用的人工智能基座,解决“能用不敢用”的问题;对于极端风险,如超级智能失控、群体智能涌现等,重点开展前瞻研判,建立循证研究框架,提前做好技术储备。
面对通用人工智能时代的安全挑战,传统的“先发展、后治理”模式难以为继,必须推动安全治理从“被动应对”转向“主动预防”,从“外生安全(Make AI Safe)”转向“内生安全(Make Safe AI)”。外生安全是指先把人工智能开发出来,再通过外挂安全护栏、打安全补丁等方式应对安全威胁,这种方式适用于基准风险,但修补速度往往跟不上技术迭代。内生安全则要求从底层设计入手,在激励机制、逻辑构造、系统架构上重新思考“AI-45度平衡律”,从源头构建安全能力,主动抵御演化式风险,这是应对中等和极端风险的根本途径。
人工智能安全已超越单一技术议题,成为一个需要全生命周期、分层分级体系化布局的系统工程。人工智能技术安全发展路线图,明确了“从外挂补丁到内生安全、从单点突破到系统布局、从独立发展到协同进化、从技术导向到工程集成”的总体方向。
依据技术成熟度和市场投入能力,人工智能安全技术领域可以划分为三类:第一类安全技术相对成熟、商业模式清晰,主要由企业主导发展;第二类安全技术是政府监管急需但缺乏技术抓手的领域,需要建设公共基础设施与评测工具予以支撑;第三类安全技术属于市场无力投入的“无人区”和“深水区”,需要集中科研力量突破“软硬结合部”与“机理黑盒”(内部工作机制不透明或不可见)瓶颈,确保国家人工智能安全底座自主可控。
人工智能安全标准化的核心逻辑和目标
标准是技术发展的结晶,是产业共识的体现,也是政府监管的重要抓手。在人工智能安全治理中,“政策引领,标准落地”已成为重要范式。一个好的标准,应当同时具备技术属性、行业属性和治理属性,三者相辅相成,缺一不可。人工智能安全标准化的核心逻辑在于“技术是根基,行业是土壤,治理是园丁”。
技术属性是标准的“根基”。顶尖标准本身就是一项科学成就。PCI DSS标准(支付卡行业数据安全标准)为全球金融支付构建了一套通用语言,成为行业通行证;TCP/IP协议(传输控制协议/互联网协议)作为互联网基础技术标准,其制定者荣获2004年图灵奖。人工智能安全标准尤其强调技术深度,许多概念和风险都是人工智能独有的,只有深入理解技术原理、前瞻研判发展方向,才能制定出科学合理的标准。
行业属性是标准的“土壤”。标准必须凝聚产业共识才能得到广泛应用。人工智能领域变化极快,从大模型生成式阶段关注内容安全,到智能体阶段面对权限失控、越权操作等全新挑战,安全标准必须在“共识凝聚者”的基础上进化为“方向引领者”,通过科学的预判为快速迭代的技术划定安全边界。
治理属性是标准的“园丁”。标准对产业生态进行呵护与管理。既要通过科学的政策设计为技术创新提供充沛的“养分”,确保宏观政策转化为具体可落地、可执行、可评估的技术条款;也要在技术快速演进的过程中审慎地“修剪枝叶”——识别并剔除潜在的安全隐患,防范无序扩张,从而确保人工智能技术之树在规范的框架内健康、有序地向阳生长。
人工智能安全标准制定应当遵循“前沿研究—技术沉淀—标准规范—应用验证”的闭环流程,从前瞻性风险研判出发,将研究成果转化为技术基座,再固化为标准规范指导实践,最终通过应用验证发现新问题,驱动新一轮研究,形成不断自我完善的良性循环。基于这一思路,人工智能安全标准化建设必须朝着四个目标努力:夯实技术底座,坚持前沿引领与科研驱动,面向以智能体为代表的新技术,前置开展安全风险研判;推进“标评一体化”,坚持实施导向与评测驱动,形成“以标准牵引测评、以测评验证标准”的正向循环;完善治理体系,坚持统筹推进与重点突破,采取“急用先行”与“先期探索”相结合的策略;提升国际话语权,坚持国际对接与开放协同,主动将我国先进治理理念和实践推向全球。
推进人工智能安全标准化建设的实施举措
当前,通用人工智能浪潮正深度重塑全球竞争格局,构建与之适配、以标准为核心的新型治理体系,已成为平衡创新发展与安全底线的战略基石。
立足前沿,科学研判布局未来标准。标准建设不能“遇到需求再补标准”,而要建立持续研判、持续储备、持续转化的未来标准生成机制。围绕人工智能技术体系结构与安全治理的演进需求,从基础共性、安全管理、内生安全、系统安全、应用安全、新形态与服务安全、科学评测等七大方向着手,在各领域开展前瞻性研究。探索科研任务与标准任务一体化布局,实现“科研成果与标准成果双产出”的倍增效应。此外,建立常态化高端智库共识机制,定期组织高水平专家研讨与技术交流,深度联动监管部门、科研机构和产业企业,推动形成技术共识,夯实未来标准研制的社会基础与技术基础。
多措并举,深化优质标准试点应用与推广。优质标准不仅要“研制好”,更要“用得好”。当前,针对已具备较高成熟度的《网络安全技术 人工智能安全能力成熟度评估方法》《网络安全技术 人工智能应用安全分类分级方法》《网络安全技术 人工智能技术涉及未成年人应用安全指南》三项重要标准,可以选取基础大模型厂商、能源与金融等高安全风险领域的头部企业作为首批试点对象,开展覆盖基础设施、数据、模型、服务等全维度的安全能力摸底评估。在实际应用过程中,通过收集真实业务环境下的数据,不断反哺并优化评估指标,力争将上述标准打造成为衡量我国人工智能产业界安全基建水平的重要依据和事实标准。同时,通过出台配套的指南与白皮书、开源安全检测工具、开展贯标培训与行业研讨,建立起标准的长效推广机制,切实解决企业“看不懂、找不到、不会用”标准的问题。
集中攻坚,推进四大领域“急用先行”标准研制。针对人工智能安全治理中的关键问题,需集中力量攻坚一批具备前沿代表性的国家标准。在内生安全与数据基座领域,推进“网络安全技术 人工智能语料库安全建设指南”,从语料库全生命周期出发,规范数据清洗与合成流程,从源头化解训练数据污染、版权侵权及隐私泄露风险。在新形态与服务安全领域,推进“网络安全技术 智能体安全基本规范”,界定感知、规划、记忆、行动等核心模块的安全边界;推进“网络安全技术 人工智能拟人化互动服务安全基本要求”,防范情感过度依赖、负面情绪诱导及伦理越界风险。在系统与应用安全领域,推进“网络安全技术 大模型安全护栏建设指南”,为拦截恶意提示词注入、越狱攻击及输出风险管控提供实战依据。在科学评测度量体系领域,推进“网络安全技术 大模型稳健性测评方法”,突破传统基于做题的评测模式,建立覆盖输入扰动抵抗、抗幻觉能力、分布变化稳健性的多维动态测评标准。
主动出击,深度参与并引领国际标准化工作。人工智能安全是全球性议题,需要国际社会共同应对。为此,应与ISO/IEC JTC 1/SC 42(人工智能分技术委员会)、SC 27(信息安全、网络安全和隐私保护分技术委员会)等国际标准组织加强战略对接,建立常态化国际标准跟踪研判机制,系统分析国际规则演进趋势,构建持续性的国际规则感知能力。依托我国在智能体安全、人工智能安全能力成熟度评估等方向的先发优势和实测数据积累,向国际组织提交高质量标准提案,逐步实现从“能接轨”到“能出题”的转变。探索评测结果国际互认机制,减少国内外重复测试成本,为企业国际合规与产品出海打通更顺畅的路径。建立人工智能安全国际标准专家库,培养既懂前沿技术又熟悉国际规则的复合型人才,逐步形成面向全球人工智能安全治理的话语能力、组织能力和领导能力。
面向未来,随着通用人工智能技术的持续突破,人机关系将迈向更深度的融合并伴随更复杂的张力。我们要始终坚持统筹发展和安全,以“AI-45度平衡律”的准则,推动安全与能力协同演进,加快构建覆盖全生命周期、全技术领域、全应用场景的人工智能安全标准体系。通过技术创新与标准引领相结合、政府监管与产业自律相结合、国内治理与国际合作相结合,共同构建一个有温度、有边界、向上向善的智能社会,让人工智能更好地服务于人类福祉,为推动新质生产力发展、建设网络强国贡献力量。