互聯(lián)網(wǎng)不良信息監(jiān)測(cè)系統(tǒng)

本系統(tǒng)可以實(shí)現(xiàn)對(duì)移動(dòng)互聯(lián)網(wǎng)用戶和固網(wǎng)用戶的上下行內(nèi)容進(jìn)行實(shí)時(shí)采集和監(jiān)測(cè)。根據(jù)篩選準(zhǔn)則,對(duì)用戶訪問的圖片和文字的內(nèi)容自動(dòng)審核(即自動(dòng)識(shí)別),判斷其是否為疑似不良內(nèi)容。自動(dòng)審核篩選出來的疑似不良內(nèi)容,必須再經(jīng)過人工審核后,才能最終判定是否為不良內(nèi)容。對(duì)于人工審核判定為不良內(nèi)容的網(wǎng)站域名需生成相應(yīng)的封堵黑名單,發(fā)送到封堵設(shè)備(域名管控系統(tǒng))進(jìn)行封堵。

  1. 產(chǎn)品特色
  • 網(wǎng)絡(luò)圖像和文本數(shù)據(jù)獲取,支持爬蟲技術(shù)和網(wǎng)絡(luò)協(xié)議解析技術(shù);
  • 圖像與文本數(shù)據(jù)的去重;
  • 色情圖像的智能識(shí)別;
  • 色情文本的智能識(shí)別,支持關(guān)鍵字匹配和語義分析;
  • 黑白名單管理;
  • 識(shí)別策略配置;
  • 不良信息記錄取證;
  1. 系統(tǒng)組網(wǎng)及部署

本系統(tǒng)由網(wǎng)絡(luò)內(nèi)容監(jiān)測(cè)前端機(jī)、內(nèi)容識(shí)別服務(wù)器、中心處理服務(wù)器等組成。前端機(jī)采用數(shù)據(jù)旁路方式接入被監(jiān)測(cè)鏈路,采集還原出鏈路數(shù)據(jù)中的圖像和文本數(shù)據(jù),同時(shí)對(duì)圖像和文本數(shù)據(jù)進(jìn)行去重。內(nèi)容識(shí)別服務(wù)器是對(duì)前端機(jī)傳輸過來的圖像和文本數(shù)據(jù)進(jìn)行識(shí)別,并將中標(biāo)的圖像和文本數(shù)據(jù)上傳到中心處理服務(wù)器。應(yīng)用服務(wù)器完成監(jiān)測(cè)功能配置、數(shù)據(jù)統(tǒng)計(jì)分析、監(jiān)測(cè)記錄存儲(chǔ)、人工二次審核等功能。

  1. 主要功能模塊

3.1 不良文字識(shí)別模塊

  • 語義識(shí)別:能進(jìn)行語境分析,使文字不良含義識(shí)別更準(zhǔn)確;
  • 權(quán)重:不同增減權(quán)重級(jí)別區(qū)分不同違規(guī)程度和增強(qiáng)識(shí)別準(zhǔn)確率;
  • 通配符:采用關(guān)鍵字+通配符模糊識(shí)別技術(shù),更加快速準(zhǔn)確;
  • 分類字典:支持不同關(guān)鍵字字典;支持 少數(shù)民族字符集,如維、藏文等; 支持的文本內(nèi)容格式包括:TXT、RTF、DOC、PDF等。

3.2 圖片智能識(shí)別模塊

可以識(shí)別的圖片格式包括JPEG、JPG、PNG、TIFF、JBIG、JPEG-2000、RAW、PNM、PPM、PGM、RAS、MNG、BMP、GIF、ICO、TGA、PCX、WBMP、WMF、SKA、SVG、其中“WBMP、TIFF、SVG ”為生僻格式,識(shí)別能力為業(yè)界領(lǐng)先。

3.2.1 樣例庫圖片分析識(shí)別(實(shí)時(shí))

對(duì)于特定圖片可以采用樣例庫圖片分析技術(shù),即由用戶手工在樣例庫中添加該圖片,系統(tǒng)通過先進(jìn)的圖片摘要技術(shù)可以自動(dòng)的識(shí)別任何與該樣例庫圖片特征相符的圖片。

在下列條件下,分析識(shí)別的準(zhǔn)確率可以超過90%:

明暗亮度修改在50%以內(nèi);

按比例放大縮小在300%以內(nèi);

不按比例拉伸在300%以內(nèi);

在原圖的基礎(chǔ)上增加或刪除不超過30%的內(nèi)容。

對(duì)于和其他圖片疊加、覆蓋以及重復(fù)曝光的情況下,系統(tǒng)的摘要算法同樣可以高效的進(jìn)行分析。在樣例庫圖片保留明顯的原有特征的情況下,識(shí)別準(zhǔn)確率可以超過90%。

3.2.2 黃色圖片智能識(shí)別判定

系統(tǒng)創(chuàng)新性地采用了“基于內(nèi)容的圖像識(shí)別技術(shù)”,建立了人工智能的圖像識(shí)別數(shù)學(xué)模型,根據(jù)標(biāo)準(zhǔn)膚色、姿態(tài)特征庫直接對(duì)圖像進(jìn)行判斷,而不是和現(xiàn)有圖像庫進(jìn)行簡單的對(duì)比,對(duì)色情圖像的識(shí)別率大于90%,成功實(shí)現(xiàn)了變被動(dòng)防御狀態(tài)為真正主動(dòng)過濾,極大地提高了過濾的有效性。

 

黃色圖片識(shí)別關(guān)鍵技術(shù)-視覺指紋識(shí)別技術(shù):視覺指紋識(shí)別技術(shù)為客戶端提供了自動(dòng)甄別圖片和視頻內(nèi)容的方法。系統(tǒng)每天能甄別上千萬張圖片或數(shù)萬小時(shí)視頻。視覺指紋識(shí)別技術(shù)使用細(xì)微而致密的視覺指紋,從每一個(gè)圖片/幀中提取出幾百個(gè)指紋。

3.2.3 圖片文字識(shí)別

針對(duì)彩信圖片中的文字信息,進(jìn)行文字提取和識(shí)別,以確認(rèn)圖片內(nèi)容是否合法,其中OCR識(shí)別技術(shù)針對(duì)文字顏色單一,大小不固定,背景不固定等因素影響的情況下,可以支持以下性能:

支持目前各種主流的字體;

支持橫幅、圖片文字識(shí)別;

識(shí)別率90%左右。

3.3 視頻智能識(shí)別模塊

3.3.1 樣例庫視頻分析識(shí)別(實(shí)時(shí))

對(duì)于特定視頻可以采用樣例庫視頻分析技術(shù),即由用戶手工在樣例庫中添加該視頻,系統(tǒng)通過先進(jìn)的視頻摘要技術(shù)可以自動(dòng)的識(shí)別任何與該樣例庫視頻特征相符的視頻。分析識(shí)別的準(zhǔn)確率可以超過99%。

3.3.2 黃色視頻智能識(shí)別判定

為了實(shí)現(xiàn)對(duì)視頻文件的識(shí)別,首先需要做的就是對(duì)視頻文件進(jìn)行分幀,也就是把一段視頻文件切割成許多圖片,然后對(duì)這些切割出來的圖片進(jìn)行內(nèi)容判別,從而識(shí)別出視頻中是否包括淫穢的內(nèi)容,實(shí)現(xiàn)對(duì)視頻進(jìn)行監(jiān)控的功能。

基于FFmpeg的AVbin庫可以解析大多數(shù)視頻文件(AVI、MPG、MPEG、DAT、RA、RM、RMVB、MOV、QT、ASF、WMV、FLV、MP4、WAV、SWF、DV、KMVC、AMV、ZMBV、MJPEG),為業(yè)界領(lǐng)先。Pyglet模塊可以對(duì)視頻進(jìn)行抽取,PIL模塊可以對(duì)圖片進(jìn)行處理。

黃色視頻識(shí)別,采用的是敏感視頻識(shí)別算法(Sensitive Video Recognition),并結(jié)合基于靜態(tài)內(nèi)容和視頻動(dòng)態(tài)性的技術(shù),實(shí)現(xiàn)針對(duì)視頻幀集的敏感/正常視頻的識(shí)別與判定。該方法有如下特點(diǎn):

利用視頻幀內(nèi)容的顏色、紋理、形狀和姿態(tài)特性,識(shí)別精確度高;

快速識(shí)別策略大大縮短幀和視頻的識(shí)別時(shí)間,識(shí)別速度快;

利用視頻幀動(dòng)態(tài)特性和敏感幀的連續(xù)性,針對(duì)性強(qiáng);

可以通過預(yù)設(shè)圖片(商標(biāo)、旗幟、特定標(biāo)志、物件等)查找包含這些預(yù)設(shè)內(nèi)容的圖片及視頻。

3.4 多媒體監(jiān)控告警模塊:

發(fā)現(xiàn)疑似非法圖片記錄監(jiān)控、智能識(shí)別非法圖片、疑似非法視頻記錄、智能識(shí)別非法視頻、智能識(shí)別非法文字信息、人工審核視頻和圖片等信息后產(chǎn)生告警。

 

3.5 不良信息黑名單模塊:

該模塊記錄聯(lián)動(dòng)相關(guān)設(shè)置產(chǎn)生的黑白名單,可以針對(duì)域名進(jìn)行過濾查詢。當(dāng)啟用聯(lián)動(dòng)此非法信息數(shù)據(jù)內(nèi)容與防火墻黑、白名單模塊數(shù)據(jù)一致。

3.6 日常巡檢模塊:

包括阻斷域名個(gè)數(shù)、信任域名個(gè)數(shù)、阻斷URL個(gè)數(shù)、新增數(shù)據(jù)柱狀圖、一周內(nèi)的阻斷總次數(shù)曲線圖、一周內(nèi)的關(guān)鍵詞命中次數(shù)總和曲線圖。

3.7 關(guān)鍵詞掃描模塊:

包含關(guān)鍵字掃描統(tǒng)計(jì)、域名掃描統(tǒng)計(jì)、域名關(guān)鍵字掃描統(tǒng)計(jì)、疑似非法關(guān)鍵詞記錄、語義識(shí)別合法記錄、語義識(shí)別非法記錄、審核記錄、關(guān)鍵字管理、信息檢索等功能。

3.8 域名備案模塊:

包含備案檢查、未備案記錄、已備案記錄、待查詢、ip域名統(tǒng)計(jì)域名備案審核、可疑主機(jī)列表等功能。

3.9 域名規(guī)則管理模塊:

信任域名、阻斷域名、阻斷UR、阻斷日志、阻斷設(shè)置。

3.10 報(bào)表統(tǒng)計(jì)模塊:

關(guān)鍵詞統(tǒng)計(jì)、圖片統(tǒng)計(jì)、視頻統(tǒng)計(jì)、阻斷統(tǒng)計(jì)以及各種日志。

  1. 產(chǎn)品優(yōu)勢(shì)

4.1 靈活高效的檢測(cè)

系統(tǒng)引擎采用框架加檢測(cè)插件的架構(gòu),在結(jié)構(gòu)上保證了檢測(cè)的靈活性和高效性。在應(yīng)用中,用戶可根據(jù)自身的網(wǎng)絡(luò)特征和業(yè)務(wù)特征加載或預(yù)設(shè)最適當(dāng)檢測(cè)插件。

根據(jù)多種模式信息(膚色/姿態(tài)/外形/圖像信息熵等)進(jìn)行綜合判斷,極大地提高識(shí)別準(zhǔn)確率(>90%)

4.2 強(qiáng)大的處理性能

系統(tǒng)在設(shè)計(jì)時(shí)選用高性能硬件平臺(tái),同時(shí)優(yōu)化計(jì)算引擎的底層算法,從而使得流量分析系統(tǒng)的處理性能最高可以達(dá)到每秒處理8萬條流記錄(flow)的能力,能夠完全滿足各種網(wǎng)絡(luò)的流量分析監(jiān)測(cè)要求。

4.3 自適應(yīng)學(xué)習(xí)

采用了向量機(jī)(SVM)分類器和最近鄰(NN) 分類器的領(lǐng)先算法,使識(shí)別速度得到極大的提升;

系統(tǒng)具有自學(xué)習(xí)的算法;

當(dāng)處理樣本增多時(shí),系統(tǒng)可以進(jìn)行自適應(yīng)學(xué)習(xí),不斷提高識(shí)別率。

4.4 大型規(guī)?;瘧?yīng)用

成功實(shí)現(xiàn)了萬兆(10G)以上流量的實(shí)時(shí)采集監(jiān)測(cè)能力。