敏感词过滤

内部资料,请扫码登录

# 敏感词过滤

在 AI 应用开发中,内容安全至关重要。特别是对接大模型的应用场景下,必须防止用户输入的不良内容以及模型可能生成的不合规响应。PigX AI 框架集成了高性能的敏感词过滤机制,基于 DFA(确定有限自动机)算法实现,可有效识别并过滤各类敏感内容,包括:

  • 政治敏感词
  • 违法违规内容
  • 色情低俗词汇
  • 暴力极端表达
  • 其他不适宜公开场合的内容

本功能基于 houbb/sensitive-word (opens new window) 开源项目实现,提供高性能、可配置的敏感词过滤能力。

# 敏感词检测功能

PigX 已内置了一套完整的常用敏感词库,可通过敏感词管理功能进行匹配测试。

系统支持设置白名单,跳过特定词汇的过滤。

1742529179

# 大模型应用中的敏感词过滤要求

在大模型应用中,敏感词过滤通常需要在以下几个环节进行:

  1. 用户输入阶段:拦截用户可能的恶意提示词,防止误导或攻击模型
  2. 模型响应阶段:过滤模型可能生成的不合规内容
  3. 知识库问答:确保知识库内容与问答结果符合内容安全要求

PigX AI 框架通过双向过滤机制,在请求和响应两端同时进行内容安全检查,确保应用合规稳定运行。

# 跳过部分敏感词

您可以在敏感词管理界面添加白名单,对特定场景下的合法词汇进行豁免。

# 关闭敏感词功能

如需关闭敏感词过滤功能,可在配置文件中修改:

spring:
  ai:
    knowledge:
      sensitive-words: # 敏感词
        enabled: false