互聯(lián)網(wǎng)不良信息監(jiān)測(cè)系統(tǒng)
本系統(tǒng)可以實(shí)現(xiàn)對(duì)移動(dòng)互聯(lián)網(wǎng)用戶和固網(wǎng)用戶的上下行內(nèi)容進(jìn)行實(shí)時(shí)采集和監(jiān)測(cè)。根據(jù)篩選準(zhǔn)則,對(duì)用戶訪問的圖片和文字的內(nèi)容自動(dòng)審核(即自動(dòng)識(shí)別),判斷其是否為疑似不良內(nèi)容。自動(dòng)審核篩選出來的疑似不良內(nèi)容,必須再經(jīng)過人工審核后,才能最終判定是否為不良內(nèi)容。對(duì)于人工審核判定為不良內(nèi)容的網(wǎng)站域名需生成相應(yīng)的封堵黑名單,發(fā)送到封堵設(shè)備(域名管控系統(tǒng))進(jìn)行封堵。
- 產(chǎn)品特色
- 網(wǎng)絡(luò)圖像和文本數(shù)據(jù)獲取,支持爬蟲技術(shù)和網(wǎng)絡(luò)協(xié)議解析技術(shù);
- 圖像與文本數(shù)據(jù)的去重;
- 色情圖像的智能識(shí)別;
- 色情文本的智能識(shí)別,支持關(guān)鍵字匹配和語義分析;
- 黑白名單管理;
- 識(shí)別策略配置;
- 不良信息記錄取證;
- 系統(tǒng)組網(wǎng)及部署
本系統(tǒng)由網(wǎng)絡(luò)內(nèi)容監(jiān)測(cè)前端機(jī)、內(nèi)容識(shí)別服務(wù)器、中心處理服務(wù)器等組成。前端機(jī)采用數(shù)據(jù)旁路方式接入被監(jiān)測(cè)鏈路,采集還原出鏈路數(shù)據(jù)中的圖像和文本數(shù)據(jù),同時(shí)對(duì)圖像和文本數(shù)據(jù)進(jìn)行去重。內(nèi)容識(shí)別服務(wù)器是對(duì)前端機(jī)傳輸過來的圖像和文本數(shù)據(jù)進(jìn)行識(shí)別,并將中標(biāo)的圖像和文本數(shù)據(jù)上傳到中心處理服務(wù)器。應(yīng)用服務(wù)器完成監(jiān)測(cè)功能配置、數(shù)據(jù)統(tǒng)計(jì)分析、監(jiān)測(cè)記錄存儲(chǔ)、人工二次審核等功能。
- 主要功能模塊
- 語義識(shí)別:能進(jìn)行語境分析,使文字不良含義識(shí)別更準(zhǔn)確;
- 權(quán)重:不同增減權(quán)重級(jí)別區(qū)分不同違規(guī)程度和增強(qiáng)識(shí)別準(zhǔn)確率;
- 通配符:采用關(guān)鍵字+通配符模糊識(shí)別技術(shù),更加快速準(zhǔn)確;
- 分類字典:支持不同關(guān)鍵字字典;支持 少數(shù)民族字符集,如維、藏文等; 支持的文本內(nèi)容格式包括:TXT、RTF、DOC、PDF等。
可以識(shí)別的圖片格式包括JPEG、JPG、PNG、TIFF、JBIG、JPEG-2000、RAW、PNM、PPM、PGM、RAS、MNG、BMP、GIF、ICO、TGA、PCX、WBMP、WMF、SKA、SVG、其中“WBMP、TIFF、SVG ”為生僻格式,識(shí)別能力為業(yè)界領(lǐng)先。
3.2.1 樣例庫圖片分析識(shí)別(實(shí)時(shí))
對(duì)于特定圖片可以采用樣例庫圖片分析技術(shù),即由用戶手工在樣例庫中添加該圖片,系統(tǒng)通過先進(jìn)的圖片摘要技術(shù)可以自動(dòng)的識(shí)別任何與該樣例庫圖片特征相符的圖片。
在下列條件下,分析識(shí)別的準(zhǔn)確率可以超過90%:
明暗亮度修改在50%以內(nèi);
按比例放大縮小在300%以內(nèi);
不按比例拉伸在300%以內(nèi);
在原圖的基礎(chǔ)上增加或刪除不超過30%的內(nèi)容。
對(duì)于和其他圖片疊加、覆蓋以及重復(fù)曝光的情況下,系統(tǒng)的摘要算法同樣可以高效的進(jìn)行分析。在樣例庫圖片保留明顯的原有特征的情況下,識(shí)別準(zhǔn)確率可以超過90%。
3.2.2 黃色圖片智能識(shí)別判定
系統(tǒng)創(chuàng)新性地采用了“基于內(nèi)容的圖像識(shí)別技術(shù)”,建立了人工智能的圖像識(shí)別數(shù)學(xué)模型,根據(jù)標(biāo)準(zhǔn)膚色、姿態(tài)特征庫直接對(duì)圖像進(jìn)行判斷,而不是和現(xiàn)有圖像庫進(jìn)行簡單的對(duì)比,對(duì)色情圖像的識(shí)別率大于90%,成功實(shí)現(xiàn)了變被動(dòng)防御狀態(tài)為真正主動(dòng)過濾,極大地提高了過濾的有效性。
黃色圖片識(shí)別關(guān)鍵技術(shù)-視覺指紋識(shí)別技術(shù):視覺指紋識(shí)別技術(shù)為客戶端提供了自動(dòng)甄別圖片和視頻內(nèi)容的方法。系統(tǒng)每天能甄別上千萬張圖片或數(shù)萬小時(shí)視頻。視覺指紋識(shí)別技術(shù)使用細(xì)微而致密的視覺指紋,從每一個(gè)圖片/幀中提取出幾百個(gè)指紋。
3.2.3 圖片文字識(shí)別
針對(duì)彩信圖片中的文字信息,進(jìn)行文字提取和識(shí)別,以確認(rèn)圖片內(nèi)容是否合法,其中OCR識(shí)別技術(shù)針對(duì)文字顏色單一,大小不固定,背景不固定等因素影響的情況下,可以支持以下性能:
支持目前各種主流的字體;
支持橫幅、圖片文字識(shí)別;
識(shí)別率90%左右。
3.3.1 樣例庫視頻分析識(shí)別(實(shí)時(shí))
對(duì)于特定視頻可以采用樣例庫視頻分析技術(shù),即由用戶手工在樣例庫中添加該視頻,系統(tǒng)通過先進(jìn)的視頻摘要技術(shù)可以自動(dòng)的識(shí)別任何與該樣例庫視頻特征相符的視頻。分析識(shí)別的準(zhǔn)確率可以超過99%。
3.3.2 黃色視頻智能識(shí)別判定
為了實(shí)現(xiàn)對(duì)視頻文件的識(shí)別,首先需要做的就是對(duì)視頻文件進(jìn)行分幀,也就是把一段視頻文件切割成許多圖片,然后對(duì)這些切割出來的圖片進(jìn)行內(nèi)容判別,從而識(shí)別出視頻中是否包括淫穢的內(nèi)容,實(shí)現(xiàn)對(duì)視頻進(jìn)行監(jiān)控的功能。
基于FFmpeg的AVbin庫可以解析大多數(shù)視頻文件(AVI、MPG、MPEG、DAT、RA、RM、RMVB、MOV、QT、ASF、WMV、FLV、MP4、WAV、SWF、DV、KMVC、AMV、ZMBV、MJPEG),為業(yè)界領(lǐng)先。Pyglet模塊可以對(duì)視頻進(jìn)行抽取,PIL模塊可以對(duì)圖片進(jìn)行處理。
黃色視頻識(shí)別,采用的是敏感視頻識(shí)別算法(Sensitive Video Recognition),并結(jié)合基于靜態(tài)內(nèi)容和視頻動(dòng)態(tài)性的技術(shù),實(shí)現(xiàn)針對(duì)視頻幀集的敏感/正常視頻的識(shí)別與判定。該方法有如下特點(diǎn):
利用視頻幀內(nèi)容的顏色、紋理、形狀和姿態(tài)特性,識(shí)別精確度高;
快速識(shí)別策略大大縮短幀和視頻的識(shí)別時(shí)間,識(shí)別速度快;
利用視頻幀動(dòng)態(tài)特性和敏感幀的連續(xù)性,針對(duì)性強(qiáng);
可以通過預(yù)設(shè)圖片(商標(biāo)、旗幟、特定標(biāo)志、物件等)查找包含這些預(yù)設(shè)內(nèi)容的圖片及視頻。
3.4 多媒體監(jiān)控告警模塊:
發(fā)現(xiàn)疑似非法圖片記錄監(jiān)控、智能識(shí)別非法圖片、疑似非法視頻記錄、智能識(shí)別非法視頻、智能識(shí)別非法文字信息、人工審核視頻和圖片等信息后產(chǎn)生告警。
3.5 不良信息黑名單模塊:
該模塊記錄聯(lián)動(dòng)相關(guān)設(shè)置產(chǎn)生的黑白名單,可以針對(duì)域名進(jìn)行過濾查詢。當(dāng)啟用聯(lián)動(dòng)此非法信息數(shù)據(jù)內(nèi)容與防火墻黑、白名單模塊數(shù)據(jù)一致。
3.6 日常巡檢模塊:
包括阻斷域名個(gè)數(shù)、信任域名個(gè)數(shù)、阻斷URL個(gè)數(shù)、新增數(shù)據(jù)柱狀圖、一周內(nèi)的阻斷總次數(shù)曲線圖、一周內(nèi)的關(guān)鍵詞命中次數(shù)總和曲線圖。
3.7 關(guān)鍵詞掃描模塊:
包含關(guān)鍵字掃描統(tǒng)計(jì)、域名掃描統(tǒng)計(jì)、域名關(guān)鍵字掃描統(tǒng)計(jì)、疑似非法關(guān)鍵詞記錄、語義識(shí)別合法記錄、語義識(shí)別非法記錄、審核記錄、關(guān)鍵字管理、信息檢索等功能。
3.8 域名備案模塊:
包含備案檢查、未備案記錄、已備案記錄、待查詢、ip域名統(tǒng)計(jì)域名備案審核、可疑主機(jī)列表等功能。
3.9 域名規(guī)則管理模塊:
信任域名、阻斷域名、阻斷UR、阻斷日志、阻斷設(shè)置。
3.10 報(bào)表統(tǒng)計(jì)模塊:
關(guān)鍵詞統(tǒng)計(jì)、圖片統(tǒng)計(jì)、視頻統(tǒng)計(jì)、阻斷統(tǒng)計(jì)以及各種日志。
- 產(chǎn)品優(yōu)勢(shì)
4.1 靈活高效的檢測(cè)
系統(tǒng)引擎采用框架加檢測(cè)插件的架構(gòu),在結(jié)構(gòu)上保證了檢測(cè)的靈活性和高效性。在應(yīng)用中,用戶可根據(jù)自身的網(wǎng)絡(luò)特征和業(yè)務(wù)特征加載或預(yù)設(shè)最適當(dāng)檢測(cè)插件。
根據(jù)多種模式信息(膚色/姿態(tài)/外形/圖像信息熵等)進(jìn)行綜合判斷,極大地提高識(shí)別準(zhǔn)確率(>90%)
4.2 強(qiáng)大的處理性能
系統(tǒng)在設(shè)計(jì)時(shí)選用高性能硬件平臺(tái),同時(shí)優(yōu)化計(jì)算引擎的底層算法,從而使得流量分析系統(tǒng)的處理性能最高可以達(dá)到每秒處理8萬條流記錄(flow)的能力,能夠完全滿足各種網(wǎng)絡(luò)的流量分析監(jiān)測(cè)要求。
4.3 自適應(yīng)學(xué)習(xí)
采用了向量機(jī)(SVM)分類器和最近鄰(NN) 分類器的領(lǐng)先算法,使識(shí)別速度得到極大的提升;
系統(tǒng)具有自學(xué)習(xí)的算法;
當(dāng)處理樣本增多時(shí),系統(tǒng)可以進(jìn)行自適應(yīng)學(xué)習(xí),不斷提高識(shí)別率。
4.4 大型規(guī)?;瘧?yīng)用
成功實(shí)現(xiàn)了萬兆(10G)以上流量的實(shí)時(shí)采集監(jiān)測(cè)能力。