敏感信息多模态识别
目前,在线社交网络用户发布的信息正在指数级增长,并呈现格式和内容多样化、多模态等特点,大量含有涉黄、涉政、涉恐的敏感信息充斥在互联网中,致使敏感信息识别的难度不断增大。为有效控制社交网络敏感信息的发布和传播,营造风清气正的互联网环境,研究提出了基于深度学习的多模态融合敏感信息识别方法。

1. 基于细粒度情感的文本敏感分类识别方法
针对传统的关键字匹配方法准确率低、识别速度慢等问题,设计了结合语义分析的快速敏感信息识别方法。该方法中敏感词库包含大量敏感词,在使用过程中用户也可根据需要进行敏感词的增删改查等操作。利用fastText快速文本处理方法,结合敏感词库和语义分析对文本进行敏感性识别,在进行文本敏感性判定的同时,引入情感极性因子,提出一种基于情感词和敏感词共现分析的敏感信息识别方法。
2. 多模态融合敏感分类识别方法
针对传统敏感图像识别的二分类问题,设计了敏感图像分类识别模型,将图像分为三类:涉黄、涉政、涉恐。为了解决单模态文本或图片的敏感信息识别方法不能充分挖掘社交网络敏感信息内容的问题,提出一种图文融合多模态敏感信息识别方法,采用决策层融合策略,根据概率分配和相关阈值的设定,进行图片和文本的融合分类。
3. 敏感信息识别技术在多媒体社交网络平台中的应用
本项目提出的基于深度学习的多模态融合敏感信息识别方法能够及时并准确地识别出多媒体社交网络平台中的用户发布的敏感帖子内容。

涉黄类数据

涉政类数据

涉恐类数据

图文单模态与图文融合多模态敏感分类结果对比
