首頁 資訊 主流網(wǎng)頁過濾方法剖析

主流網(wǎng)頁過濾方法剖析

來源:泰然健康網(wǎng) 時間:2025年05月10日 16:03

  網(wǎng)頁過濾(Web Filtering)已經(jīng)不是一個新鮮名詞,由于互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)上的信息資源開始到處泛濫,而其中不乏很多不良信息,于是人們開始探尋各種過濾信息的技術(shù)手段,以扼制不良信息的傳播,保護特定人群不受惡意信息的侵擾,例如保護企業(yè)內(nèi)員工不受購物、娛樂等信息侵擾,而影響工作效率;保護青少年不受色情、暴力等信息毒害,而健康成長;因此網(wǎng)頁過濾技術(shù)應運而生,而由此衍生的內(nèi)容安全市場也在飛速發(fā)展,國內(nèi)外眾多網(wǎng)絡設備廠商開始涉足該領(lǐng)域。例如國外廠商有Websense、BlueCoat、8e6等,國內(nèi)廠商有網(wǎng)康科技、新網(wǎng)程、任子行等。

  目前,網(wǎng)頁過濾技術(shù)正向兩個主要方向發(fā)展:

  1.內(nèi)容實時分析;

  2.Url過濾。

  內(nèi)容實時分析過濾是指在訪問Web內(nèi)容時,對內(nèi)容進行實時掃描,根據(jù)已知的敏感關(guān)鍵字/詞、圖片和頁面構(gòu)成特點,分析是否含有禁止訪問的內(nèi)容。這是最有效的控制方法,只要建立一個足夠完全的關(guān)鍵字庫就可以完全杜絕對不良信息的訪問。

  但是,應用內(nèi)容實時分析過濾技術(shù)卻受到網(wǎng)絡延遲、法律法規(guī)、文化道德、維護更新等多方面因素的限制。首先,該類產(chǎn)品對分析算法要求很高,并且要有相應運算能力的設備支持,否則在遇到大量數(shù)據(jù)分析時可能會造成嚴重的網(wǎng)絡延遲、誤判漏判等問題。其次,此類產(chǎn)品需要人工維護更新一個龐大的關(guān)鍵字數(shù)據(jù)庫,不斷將新的禁止訪問的內(nèi)容關(guān)鍵字添加進去,但是對內(nèi)容的分析需要跟文化、法律、宗教信仰等多方面結(jié)合起來評判,因為不同地區(qū)、不同文化、不同法律對信息良莠的定義都不相同,特別是在中國,一個詞可以用多音字、諧音字、拼音字母等多種方式表現(xiàn),為關(guān)鍵字數(shù)據(jù)庫的維護帶來了巨大的難度。而這個維護更新工作一般是由用戶自己完成,因為不同的用戶對需要過濾的內(nèi)容有不同的需求。還有,內(nèi)容實時分析過濾需要將網(wǎng)頁內(nèi)容下載到本地才能進行分析,對系統(tǒng)資源和帶寬資源都造成了一定的浪費。

  因此,采用內(nèi)容實時分析過濾技術(shù)的產(chǎn)品不應該是一個全球通用產(chǎn)品,必須做到真正的完全本地化,才能具備為本地用戶服務的能力。

  Url過濾是近幾年才興起的一種網(wǎng)頁過濾方法,其原理非常簡單:通過對互聯(lián)網(wǎng)上各種各樣的信息進行分類,精確地匹配URL和與之對應的頁面內(nèi)容,形成一個預分類網(wǎng)址庫。在用戶訪問網(wǎng)頁時,將要訪問的網(wǎng)址與預分類網(wǎng)址庫中的地址進行對比,以此來判斷該網(wǎng)址是否被允許訪問。例如我們事先設定禁止訪問色情類網(wǎng)站,當某個用戶想要訪問www.XXX.com時,系統(tǒng)會對比該網(wǎng)址在預分類網(wǎng)址庫中屬于哪一類?是否被允許訪問?從而達到控制訪問的效果。

  與內(nèi)容實時分析過濾相比,Url過濾方法具有節(jié)約帶寬,降低訪問延遲,減少誤判率的優(yōu)點。但是,Url過濾方法也存在一定的應用限制:首先,采用Url過濾方法的產(chǎn)品也不能是全球通用產(chǎn)品,這同樣牽扯到法律、文化、宗教等諸多問題,例如中西方對色情和成人的評定等級就不相同,這就要求預分類網(wǎng)址庫收集、分類必須符合當?shù)胤煞ㄒ?guī)、道德文化標準、用戶使用習慣等。其次,預分類網(wǎng)址庫必須實時更新,我們知道互聯(lián)網(wǎng)的發(fā)展日新月異,每天都會有大量的新網(wǎng)站誕生,這就對采用Url過濾技術(shù)的產(chǎn)品提出了實時更新數(shù)據(jù)庫的要求。還有,既然采用預分類的方式過濾Url,就對預分類網(wǎng)址庫的精確度提出了很高的要求,預分類的網(wǎng)址不但要數(shù)量龐大,還要具有非常高的分類精確度,才不至于出現(xiàn)誤判、漏判的可能。

  由于網(wǎng)頁過濾與法律、文化、宗教有著很高的相關(guān)性,過濾技術(shù)的發(fā)展已經(jīng)不能完全滿足用戶的需求。而智能系統(tǒng)對內(nèi)容的分析判斷總是會有些偏差,無論是實時的內(nèi)容掃描分析,還是預分類的Url過濾方法,都無法做到100%的準確判斷。但是完善的本地化服務卻能彌補先天的不足,只有把用戶的需求和利益放在第一位,為本地用戶提供真正適合的產(chǎn)品和服務,才能在市場上立足根本。

我們一直都在努力堅持原創(chuàng).......請不要一聲不吭,就悄悄拿走。

我原創(chuàng),你原創(chuàng),我們的內(nèi)容世界才會更加精彩!

【所有原創(chuàng)內(nèi)容版權(quán)均屬TechTarget,歡迎大家轉(zhuǎn)發(fā)分享。但未經(jīng)授權(quán),嚴禁任何媒體(平面媒體、網(wǎng)絡媒體、自媒體等)以及微信公眾號復制、轉(zhuǎn)載、摘編或以其他方式進行使用?!?

微信公眾號

TechTarget微信公眾號二維碼

TechTarget

官方微博

TechTarget中國官方微博二維碼

TechTarget中國

相關(guān)知識

一文剖析:血透、血濾、灌流到底有什么區(qū)別?
溶劑過濾器的使用方法
手沖咖啡過濾要選哪種: 濾紙、金屬濾網(wǎng)、濾布的比較 中國咖啡網(wǎng)
內(nèi)容過濾
推薦8款內(nèi)容過濾DNS,避免網(wǎng)絡威脅侵襲
剖析黑巧克力減肥法的秘密
血液濾過置換液的兩種配制方法
Stable Diffusion:智能過濾,保護網(wǎng)絡健康
直流濾波器公司
第二章健康史評估的基本方法剖析.ppt

網(wǎng)址: 主流網(wǎng)頁過濾方法剖析 http://www.u1s5d6.cn/newsview1227441.html

推薦資訊