为什么数据分类很重要
并非每一条信息都应获得相同的保护级别。公开的博客文章、内部计划笔记、客户合同和生产秘钥不应以相同方式处理。数据分类的目的就是按敏感性和业务影响对信息贴标签,让人们知道如何存储、共享和保护它。
没有单一通用的命名方案。有些框架使用诸如\n\t\t这样的标签 Public, General, Confidential,以及 高度机密。政府模型可能使用完全不同的标签。名称可能会改变,但目的保持不变:了解如果信息被暴露、更改、丢失或发送给错误的受众会造成何种损害。
四级模型
对于许多私营部门团队而言,一个简单的四级模型运作良好,因为\n\t\t它易于教授且实用可行:
- Public
- Internal
- Confidential
- Restricted
该模型并非唯一有效的模型,但它建立了清晰的敏感度阶梯。人们不需要记住几十个标签。他们需要一个在发送文件、共享笔记或决定是否让聊天机器人查看内容时实际可用的工作模型。
1. 公开
Public 信息可以在组织外共享而不会造成实质性的保密性损害。示例通常包括公开的博客文章、新闻稿、已发布的文档、经批准的营销文案以及面向公众的产品页面。
公开并不等于不重要。它仍需完整性和审查。但从保密性角度来看,这是风险最低的类别。
2. 内部
Internal 信息旨在在组织内部正常使用。\n\t\t如果泄露,损害通常有限,但仍不适合公开分发。内部政策、会议记录、入职材料、仅限内部的截图和普通项目文档通常属于此类。
这也是许多团队变得疏忽的地方。“不太敏感”并不意味着“随处可分享”。内部数据仍应保存在经批准的系统中,并仍需要一定的访问控制。
3. 机密
Confidential 信息如果被错误的人获取可能造成真实的伤害。客户记录、员工数据、非公开财务信息、合同、法律文件、内部安全程序、非公开定价和私有源代码通常属于该类别。
该级别通常需要更严格的访问限制、更好的审计和更严格的共享规则。如果披露可能伤害客户、员工、法律义务、收入或信任,则很可能属于机密范畴。
4. 受限
Restricted 信息是典型私营部门四级模型中最高敏感度的类别。暴露可能导致严重的业务、法律、财务、运营或安全损害。
示例可能包括生产秘钥、root 凭据、加密密钥、高度敏感的安全架构、并购材料、商业秘密以及最敏感的受监管数据集。这是需要知情并实施最严格控制的信息。
分类关乎影响
数据分类中最有用的习惯之一是停止问“这看起来敏感吗?”,而改为问“如果这被暴露、更改或发送到错误的地方,会发生什么?”
一份文档看起来平淡无奇但仍可能很敏感。包含客户邮箱的电子表格、含有内部 URL 的截图或包含 API 秘钥的纯文本文件看起来可能并不戏剧性,但暴露的影响可能很大。情境比情感更重要。
如果你已经知道主要风险是在聊天界面中过度共享,请将\n\t\t该模型与 What You Should Never Share with AI Chatbots 配合使用,以便分类标签与具体示例相互强化。
分类应驱动处理规则
分类系统只有在每个标签改变行为时才有效。没有处理规则的标签只是装饰。
至少,每个等级应回答一些实用问题:
- 谁可以访问?
- 可以存储在哪里?
- 可以外发邮件吗?
- 可以复制到 AI 工具中吗?
- 是否需要加密、审批或监控?
一个简单的工作模型可能如下:公开可以对外共享,内部保留在公司批准的空间内,机密需要限制访问和更严格的共享限制,受限则需严格控制并有明确的审批与监控要求。
这如何帮助 AI 工具
数据分类的最大实际好处之一是,它在你将内容粘贴到聊天机器人、上传到代理或通过连接器暴露之前,提供了第一层决策过滤。
- 如果数据是 Public,与 AI 工具共享通常从保密性角度来看风险较低。
- 如果数据是 Internal,它可能仍仅在经批准的企业 AI 环境中被接受,而不是自动允许在个人或面向公众的工具中使用。
- 如果数据是 Confidential,通常不应默认放入消费级 AI 工具,可能需要对内容进行编辑或采用经批准的企业工作流。
- 如果数据是 Restricted,最安全的假设是,除非存在严格控制并明确批准的流程,否则它应避免进入通用用途的 AI 工具。
如果你需要该决策的隐私控制方面的信息,请阅读 AI Chat Privacy Settings 。如果你关注的是外部操作、工具或集成,关于信任边界的安全指南请参阅 GPTs, agents, and MCP connectors ,它补充了相关的信任边界视角。
一种实用的信息分类方法
当你不确定如何对某项内容分类时,一个基于影响的简短测试通常就足够了:
- 它是否面向公众? 如果是,则可能属于公开。
- 公开披露会造成轻微或有限的损害吗? 如果是,\n\t\t\t则可能属于内部信息。
- 披露会对客户、员工、法律义务、\n\t\t\t\t运营或信任造成伤害吗? 如果是,则很可能属于机密。
- 披露会造成严重损害或需要最高级别的保护吗? 如果是,则很可能属于受限。
此流程并不完美,但远胜于猜测。主要目标是让人在将信息分享到错误系统之前暂停思考。
常见错误
一个常见的错误是将所有非公开信息视为同等敏感。另一个错误是过度使用最高级标签,直到其失去意义。这两种问题都会削弱分类的有效性。
第三个错误是忘记情境会改变敏感性。一张看似无害的截图、抄本或电子表格一旦包含姓名、时间戳、内部引用或关联元数据,就可能变得具有识别性。
官方参考与进一步阅读
- Microsoft Learn: Data classification and sensitivity label taxonomy
- Microsoft Learn: Learn about sensitivity labels
- Microsoft Learn: Classification label concepts
- Cyera: What are the Four Levels of Data Classification?
- National Archives: Controlled Unclassified Information
- GOV.UK: Government Security Classifications Policy
- OWASP: Top 10 for LLM Applications
常见问题解答
是否存在适用于每家公司的通用分类标准?
没有。不同组织使用不同的标签和法律框架。最重要的是模型要清晰、一致并与实际处理规则相挂钩。
在日常工作中最简单的模型是什么?
对于许多团队而言,四级模型效果很好:公开、内部、机密和受限。它足够简单易记,也足够实用以指导实际决策。
内部信息可以粘贴到 AI 工具中吗?
有时可以,但并非自动允许。内部数据仍可能需要在经批准的企业 AI 环境中使用、限制共享或在与聊天机器人或连接工具一起使用前进行脱敏处理。
通常哪些类型的数据被归为受限?
生产秘钥、root 凭据、加密密钥、高度敏感的法律或战略材料以及最敏感的受监管数据集通常属于最高保护等级。
为什么在使用 AI 之前进行分类有帮助?
因为它为你提供了一个初步决策过滤器。如果你知道内容属于机密或受限类别,你可以在将其粘贴到消费级聊天机器人之前停止,并选择更安全的工作流。
最常见的分类错误是什么?
将所有非公开信息视为相同。有些内部资料风险较低,而其他信息若被泄露可能导致严重的隐私、法律或安全损害。