互聯(lián)網不良信息監(jiān)測系統(tǒng)

本系統(tǒng)可以實現(xiàn)對移動互聯(lián)網用戶和固網用戶的上下行內容進行實時采集和監(jiān)測。根據篩選準則,對用戶訪問的圖片和文字的內容自動審核(即自動識別),判斷其是否為疑似不良內容。自動審核篩選出來的疑似不良內容,必須再經過人工審核后,才能最終判定是否為不良內容。對于人工審核判定為不良內容的網站域名需生成相應的封堵黑名單,發(fā)送到封堵設備(域名管控系統(tǒng))進行封堵。

  1. 產品特色
  • 網絡圖像和文本數(shù)據獲取,支持爬蟲技術和網絡協(xié)議解析技術;
  • 圖像與文本數(shù)據的去重;
  • 色情圖像的智能識別;
  • 色情文本的智能識別,支持關鍵字匹配和語義分析;
  • 黑白名單管理;
  • 識別策略配置;
  • 不良信息記錄取證;
  1. 系統(tǒng)組網及部署

本系統(tǒng)由網絡內容監(jiān)測前端機、內容識別服務器、中心處理服務器等組成。前端機采用數(shù)據旁路方式接入被監(jiān)測鏈路,采集還原出鏈路數(shù)據中的圖像和文本數(shù)據,同時對圖像和文本數(shù)據進行去重。內容識別服務器是對前端機傳輸過來的圖像和文本數(shù)據進行識別,并將中標的圖像和文本數(shù)據上傳到中心處理服務器。應用服務器完成監(jiān)測功能配置、數(shù)據統(tǒng)計分析、監(jiān)測記錄存儲、人工二次審核等功能。

  1. 主要功能模塊

3.1 不良文字識別模塊

  • 語義識別:能進行語境分析,使文字不良含義識別更準確;
  • 權重:不同增減權重級別區(qū)分不同違規(guī)程度和增強識別準確率;
  • 通配符:采用關鍵字+通配符模糊識別技術,更加快速準確;
  • 分類字典:支持不同關鍵字字典;支持 少數(shù)民族字符集,如維、藏文等; 支持的文本內容格式包括:TXT、RTF、DOC、PDF等。

3.2 圖片智能識別模塊

可以識別的圖片格式包括JPEG、JPG、PNG、TIFF、JBIG、JPEG-2000、RAW、PNM、PPM、PGM、RAS、MNG、BMP、GIF、ICO、TGA、PCX、WBMP、WMF、SKA、SVG、其中“WBMP、TIFF、SVG ”為生僻格式,識別能力為業(yè)界領先。

3.2.1 樣例庫圖片分析識別(實時)

對于特定圖片可以采用樣例庫圖片分析技術,即由用戶手工在樣例庫中添加該圖片,系統(tǒng)通過先進的圖片摘要技術可以自動的識別任何與該樣例庫圖片特征相符的圖片。

在下列條件下,分析識別的準確率可以超過90%:

明暗亮度修改在50%以內;

按比例放大縮小在300%以內;

不按比例拉伸在300%以內;

在原圖的基礎上增加或刪除不超過30%的內容。

對于和其他圖片疊加、覆蓋以及重復曝光的情況下,系統(tǒng)的摘要算法同樣可以高效的進行分析。在樣例庫圖片保留明顯的原有特征的情況下,識別準確率可以超過90%。

3.2.2 黃色圖片智能識別判定

系統(tǒng)創(chuàng)新性地采用了“基于內容的圖像識別技術”,建立了人工智能的圖像識別數(shù)學模型,根據標準膚色、姿態(tài)特征庫直接對圖像進行判斷,而不是和現(xiàn)有圖像庫進行簡單的對比,對色情圖像的識別率大于90%,成功實現(xiàn)了變被動防御狀態(tài)為真正主動過濾,極大地提高了過濾的有效性。

 

黃色圖片識別關鍵技術-視覺指紋識別技術:視覺指紋識別技術為客戶端提供了自動甄別圖片和視頻內容的方法。系統(tǒng)每天能甄別上千萬張圖片或數(shù)萬小時視頻。視覺指紋識別技術使用細微而致密的視覺指紋,從每一個圖片/幀中提取出幾百個指紋。

3.2.3 圖片文字識別

針對彩信圖片中的文字信息,進行文字提取和識別,以確認圖片內容是否合法,其中OCR識別技術針對文字顏色單一,大小不固定,背景不固定等因素影響的情況下,可以支持以下性能:

支持目前各種主流的字體;

支持橫幅、圖片文字識別;

識別率90%左右。

3.3 視頻智能識別模塊

3.3.1 樣例庫視頻分析識別(實時)

對于特定視頻可以采用樣例庫視頻分析技術,即由用戶手工在樣例庫中添加該視頻,系統(tǒng)通過先進的視頻摘要技術可以自動的識別任何與該樣例庫視頻特征相符的視頻。分析識別的準確率可以超過99%。

3.3.2 黃色視頻智能識別判定

為了實現(xiàn)對視頻文件的識別,首先需要做的就是對視頻文件進行分幀,也就是把一段視頻文件切割成許多圖片,然后對這些切割出來的圖片進行內容判別,從而識別出視頻中是否包括淫穢的內容,實現(xiàn)對視頻進行監(jiān)控的功能。

基于FFmpeg的AVbin庫可以解析大多數(shù)視頻文件(AVI、MPG、MPEG、DAT、RA、RM、RMVB、MOV、QT、ASF、WMV、FLV、MP4、WAV、SWF、DV、KMVC、AMV、ZMBV、MJPEG),為業(yè)界領先。Pyglet模塊可以對視頻進行抽取,PIL模塊可以對圖片進行處理。

黃色視頻識別,采用的是敏感視頻識別算法(Sensitive Video Recognition),并結合基于靜態(tài)內容和視頻動態(tài)性的技術,實現(xiàn)針對視頻幀集的敏感/正常視頻的識別與判定。該方法有如下特點:

利用視頻幀內容的顏色、紋理、形狀和姿態(tài)特性,識別精確度高;

快速識別策略大大縮短幀和視頻的識別時間,識別速度快;

利用視頻幀動態(tài)特性和敏感幀的連續(xù)性,針對性強;

可以通過預設圖片(商標、旗幟、特定標志、物件等)查找包含這些預設內容的圖片及視頻。

3.4 多媒體監(jiān)控告警模塊:

發(fā)現(xiàn)疑似非法圖片記錄監(jiān)控、智能識別非法圖片、疑似非法視頻記錄、智能識別非法視頻、智能識別非法文字信息、人工審核視頻和圖片等信息后產生告警。

 

3.5 不良信息黑名單模塊:

該模塊記錄聯(lián)動相關設置產生的黑白名單,可以針對域名進行過濾查詢。當啟用聯(lián)動此非法信息數(shù)據內容與防火墻黑、白名單模塊數(shù)據一致。

3.6 日常巡檢模塊:

包括阻斷域名個數(shù)、信任域名個數(shù)、阻斷URL個數(shù)、新增數(shù)據柱狀圖、一周內的阻斷總次數(shù)曲線圖、一周內的關鍵詞命中次數(shù)總和曲線圖。

3.7 關鍵詞掃描模塊:

包含關鍵字掃描統(tǒng)計、域名掃描統(tǒng)計、域名關鍵字掃描統(tǒng)計、疑似非法關鍵詞記錄、語義識別合法記錄、語義識別非法記錄、審核記錄、關鍵字管理、信息檢索等功能。

3.8 域名備案模塊:

包含備案檢查、未備案記錄、已備案記錄、待查詢、ip域名統(tǒng)計域名備案審核、可疑主機列表等功能。

3.9 域名規(guī)則管理模塊:

信任域名、阻斷域名、阻斷UR、阻斷日志、阻斷設置。

3.10 報表統(tǒng)計模塊:

關鍵詞統(tǒng)計、圖片統(tǒng)計、視頻統(tǒng)計、阻斷統(tǒng)計以及各種日志。

  1. 產品優(yōu)勢

4.1 靈活高效的檢測

系統(tǒng)引擎采用框架加檢測插件的架構,在結構上保證了檢測的靈活性和高效性。在應用中,用戶可根據自身的網絡特征和業(yè)務特征加載或預設最適當檢測插件。

根據多種模式信息(膚色/姿態(tài)/外形/圖像信息熵等)進行綜合判斷,極大地提高識別準確率(>90%)

4.2 強大的處理性能

系統(tǒng)在設計時選用高性能硬件平臺,同時優(yōu)化計算引擎的底層算法,從而使得流量分析系統(tǒng)的處理性能最高可以達到每秒處理8萬條流記錄(flow)的能力,能夠完全滿足各種網絡的流量分析監(jiān)測要求。

4.3 自適應學習

采用了向量機(SVM)分類器和最近鄰(NN) 分類器的領先算法,使識別速度得到極大的提升;

系統(tǒng)具有自學習的算法;

當處理樣本增多時,系統(tǒng)可以進行自適應學習,不斷提高識別率。

4.4 大型規(guī)?;瘧?/strong>

成功實現(xiàn)了萬兆(10G)以上流量的實時采集監(jiān)測能力。