目录

开源的敏感词检测工具

开源的敏感词检测工具

首先开源不是一件可耻,同时也不是一件让人觉得自己牛逼上天的一件事,开源出项目只是想更多的人能够少走弯路。对于使用者来说能够避免重复造轮子,对于开源者来说能够增加经验,使用者越多,可能发现的bug就越多,提出新的需求也可能会更多,所以对于开源者不仅是考验,也是能力提升的契机。

通常我们的个人网站或者博客网站存在他人发布评论的功能,就可能涉及一些用户发表评论的时候“口吐芬芳”、“祝福别人”,或者发表一些政治言论,不仅会造成评论区乌烟瘴气,更严重的可能会导致网警叔叔上门查水表。虽然发表评论大多数都是计算机相关行业的人员,素质不会过低,但是此事无小,不可不防

  • 敏感词:辱骂他人、淫秽词语、政治言论、宗教言论等涉及的词语
  • 敏感词检测工具的作用就是通过输入的文本和提前设置好的敏感词库进行匹配,通常会使用Trie树的形式,目前比较主流的做法是使用AC自动机来完成检测。
  • 本开源敏感词检测工具主要具备一下功能
    • 完成文本的敏感词检测
    • 指出文本涉及的敏感词
    • 将文本中涉及的敏感词替换为 *** 或者指定的字符

由于没咋使用过其他开发工具,所以提供Intellij IDEA的导入jar包流程,如果你是使用的其他开发工具可以自行百度或者Bing一下

  1. 打开项目结构

    https://i-blog.csdnimg.cn/blog_migrate/0295264f663da6ce58e603717d227c20.png Pasted image 20240401161048.png]]

  2. 选择模块,再选择要导入jar包的项目,再点击加号

    https://i-blog.csdnimg.cn/blog_migrate/1df1ac867bd129152c9ea9c4dec9da81.png

  3. 点击JAR或目录

    https://i-blog.csdnimg.cn/blog_migrate/1357334631b057396c3626d2915b3aa5.png

  4. 最后在目录和文件选择界面选择对应的jar文件,再点击确定即可

    https://i-blog.csdnimg.cn/blog_migrate/dfb200c97b5e21495769f265a8783c3e.png

详细使用可以看这篇文章:https://paofull.cn/DetailArticle?aid=41

  • 开源地址:
  • 语言:Java
  • 可以嵌入:任何项目
  • 是否维护和更新:会,并且后续会提供更丰富同时不臃肿的功能