Ką reikia žinoti apie "Bayesian" šlamšto filtravimą

by Heinz Tschabitscher

Sužinokite, kaip statistika padeda išlaikyti jūsų pašto dėžutę švarią

Bayeso šlamšto filtrai apskaičiuoja tikimybę, kad pranešimas yra šlamštas pagal jo turinį. Skirtingai nuo paprastų turinio pagrindu veikiančių filtrų, "Bayesian" šlamšto filtravimas mokosi iš šlamšto ir gero el. Pašto, todėl labai tvirtas, pritaikomas ir veiksmingas anti-spam metodas, kuris, geriausia, grąžina beveik visus klaidingus teigiamus rezultatus.

Kaip jūs atpažįsite nepageidaujamą el. Paštą?

Pagalvokite, kaip aptikote šlamštą . Greitas žvilgsnis dažnai yra pakankamas. Jūs žinote, kokie šlamštai atrodo, ir jūs žinote, koks atrodo geras paštas.

Šlamšto, kuris, atrodo, kaip geras paštas, tikimybė yra apie ... nulį.

Taikant turinio pagrindu veikiančius filtrus nereikia prisitaikyti

Ar nebūtų puiku, jei automatiniai šlamšto filtrai taip pat veiktų?

Turinio pagrįstų šlamšto filtracijų vertinimas bando tai padaryti. Jie ieško žodžių ir kitų savybių, būdingų šlamštui. Kiekvienam charakteringam elementui priskiriamas rezultatas, o visos žinutės "spam" balas skaičiuojamas pagal atskirus balus. Kai kurie taškų filtrai taip pat ieškojo teisėtų laiškų charakteristikų, sumažindami pranešimo galutinį balą.

Taškinių filtrų metodas veikia, tačiau jis turi ir keletą trūkumų:

Rodiklių sąrašas pagamintas iš šlamšto (ir gero pašto), prieinamo filtro inžinieriams. Norint gauti gerą supratimą apie tipišką šlamštą, kurį gali gauti visi, paštą reikia surinkti šimtuose el. Pašto adresų. Tai silpnina filtrų efektyvumą, ypač todėl, kad gero pašto savybės kiekvienam asmeniui bus skirtingos , bet į tai neatsižvelgiama.
Savybes, kurias reikia ieškoti, yra daugiau ar mažiau akmenyje . Jei nepageidaujamo e. Pašto platintojai deda pastangas prisitaikyti (ir kad jų šlamštas atrodytų kaip geras paštas į filtrus), filtravimo charakteristikos turi būti nustatytos rankiniu būdu, dar didesnės pastangos.
Kiekvienam žodžiui priskiriamas įvertinimas tikriausiai pagrįstas geru įvertinimu, bet jis vis dar yra savavališkas. Ir kaip charakteristikų sąrašas, jis neatspindi nei besikeičiančiam šlamšto pasauliui apskritai, nei individualiems naudotojo poreikiams.

Bajeso šlamšto filtrai Tweak save, geriau ir geriau

Bajeso šlamšto filtrai taip pat yra taškų turinio pagrindu veikiantys filtrai. Tačiau jų požiūris pašalina paprastų taškų spam filtrų problemas, ir tai daro tai radikaliai. Kadangi taškų filtrų silpnumas yra rankiniu būdu sudarytu charakteristikų sąrašu ir jų balais, šis sąrašas pašalinamas.

Vietoj to, Bayeso šlamšto filtrai sukuria sąrašą patys. Idealiu atveju jūs pradedate nuo (didelės) el. Laiškų, kuriuos priskyrėte kaip šlamštą, ir dar vieną gero el. Pašto adresą. Filtrai žiūri į abu ir analizuoja teisėtą paštą, taip pat šlamštą, kad apskaičiuotų įvairių savybių, kurios atsiranda šlamštuose, ir geros žinutės tikimybę.

Kaip "Bayesian" šlamšto filtras tikrina el. Laišką

Savybės, kurias gali pažvelgti Bayesio šlamšto filtras, gali būti:

žinoma, žodžio tekste, žinoma, ir
jo antraštės (siuntėjai ir pranešimų keliai , pavyzdžiui!), bet taip pat
kiti aspektai, pvz., HTML / CSS kodas (pvz., spalvos ir kitas formatavimas) ar net
žodžių poros, frazės ir
meta informacija (pavyzdžiui, kai pasirodo tam tikra frazė).

Pavyzdžiui, jei žodis "Cartesian" niekada nebūna šlamštas, bet dažnai teisėtame el. Laiške, kurį jūs gaunate, tikimybė, kad "dekartinis" reiškia šlamštą, yra beveik lygi nuliui. Kita vertus, "Toner" pasirodo išskirtinai ir dažnai šlamštuose. "Tonerio" yra labai didelė tikimybė, kad jis randamas šlamštuose, o ne daug mažesnis nei 1 (100%).

Kai gaunamas naujas pranešimas, jis yra analizuojamas naudojant "Bayesian" šlamšto filtrą, o tikimybė, kad visas pranešimas bus šlamštas, apskaičiuojamas pagal atskiras savybes.

Tarkime, kad žinutėje yra ir "Dekarto", ir "Tonerio". Tik iš šių žodžių dar neaišku, ar mes turime šlamštą ar teisėtą el. Laišką. Kitos savybės (tikiuosi ir greičiausiai) nurodo tikimybę, leidžiančią filtrui priskirti pranešimą kaip šlamštą ar gerą paštą.

Bayesian šlamšto filtrai gali mokytis automatiškai

Dabar, kai mes turime klasifikaciją, žinutė gali būti naudojama filtrui tobulinti toliau. Tokiu atveju sumažėja "Dekarto", kuris nurodo gerą paštą, tikimybė (jei žinutė, kurioje yra tiek "Dekarto", tiek "Tonerio", yra šlamštas), arba turi būti persvarstyta "šiukšlių" tikimybė, rodanti šlamštą.

Naudodamiesi šia automatinio pritaikymo priemone, "Bayesian" filtrai gali mokytis iš savo ir vartotojo sprendimų (jei ji rankiniu būdu ištaiso neteisingus filtrais). Bajeso filtravimo pritaikomumas taip pat užtikrina, kad jie būtų efektyviausi individualiam el. Pašto vartotojui. Nors dauguma žmonių šlamštas gali turėti panašių savybių, teisėtas paštas visiems būdingai skiriasi.

Kaip spuogai gali gauti ankstesnius bajzezo filtrus?

Teisėto pašto savybės yra tokios pat svarbios, kaip ir "spam" filtravimo procesas "Bayesian". Jei filtrai yra specialiai apmokyti kiekvienam vartotojui, nepageidaujamo e. Pašto platintojai bus dar sunkiau dirbti su visais (arba netgi dauguma žmonių) šlamšto filtrais, o filtrai gali prisitaikyti prie beveik visko, ką imasi šlamšto siuntėjai.

"Spuogai" atliks tik gerai parengtus "Bayesian" filtrus, jei jie padarys, kad jų šlamšto žinutės puikiai atrodytų kaip įprastas el. Laiškas, kurį gali gauti visi.

"Spameriai" paprastai siunčia tokius įprastus el. Laiškus. Tarkime, tai yra todėl, kad šie el. Laiškai neveikia kaip šlamštas. Taigi, yra tikimybė, kad jie nebus tai daryti, kai įprasti, nuobodūs el. Laiškai yra vienintelis būdas tai padaryti praeityje spam filtrus.

Jei šlamšto siuntėjai perjungia dažniausiai įprastai atrodančius el. Laiškus, vėl matome daugybę nepageidaujamų laiškų į savo "Inboxes", o el. Laiškas gali tapti toks pat nelinksmis , koks buvo prieš bajezės dienas (ar dar blogiau). Tačiau tai taip pat sugriauti daugelio rūšių šlamštą, taigi ir taip ilgai tęsis.

Stiprūs rodikliai gali būti "Bayesian" šlamšto filtras "Achilas" Kulnas

Viena išimtis gali būti laikoma, kad nepageidaujamo e. Pašto platintojai, norėdami dirbti per "Bayesian" filtrus, netgi naudoja įprastą turinį. Bajeso statistikos pobūdis rodo, kad vienas žodis ar charakteristika, labai dažnai pateikiami geru paštu, gali būti tokie reikšmingi, kad bet koks pranešimas, atrodantis kaip šlamštas, būtų filtruojamas kaip kumpis.

Jei šlamšto siuntėjai randa būdą, kaip nustatyti jūsų patikimus el. Laiškus, naudodami HTML gautus įplaukus, kad pamatytumėte, kuriuos jūsų atidarytus pranešimus galite įtraukti į vieną iš nepageidaujamų laiškų ir pasiekti jus net per gerai žinomą el. apmokytas Bajeso filtras.

Johnas Grahamas-Cummingas bandė tai padaryti, nes du "Bayesian" filtrai dirbo vienas prieš kitą, "blogai" pritaikydami pranešimus, kurie pasirodė per "gerą" filtrą. Jis sako, kad tai veikia, nors procesas yra daug laiko ir sudėtingas. Nemanome, kad pamatysime daug to, kas vyksta, bent jau ne dėl didelio masto, o ne pritaikyti prie individualių el. Pašto charakteristikų. "Spameriai" gali (pabandyti) išsiaiškinti kai kuriuos organizacijų raktinius žodžius (pvz., "Almaden", kai kuriems žmonėms galbūt "IBM"?).

Paprastai šlamštas visada bus (gerokai) kitoks nei įprastas paštas, tačiau jis nebus šlamštas.

Bottom Line: Bayesian filtravimo stiprumas gali būti jo silpnumas

Bayeso šlamšto filtrai yra turinio pagrindu veikiantys filtrai, kurie:

yra specialiai apmokyti atpažinti atskirus el. pašto naudotojų šlamštus ir gerus el. laiškus , todėl jie yra labai veiksmingi ir jiems sunku prisitaikyti prie nepageidaujamo e. pašto platintojų.
gali nuolat ir be daug pastangų ar rankiniu būdu pritaikyti analizę prisitaikyti prie naujų šnipinėjimo priemonių gudrybių.
atsižvelgti į individualaus vartotojo gerą paštą ir turėti labai mažą klaidingų teigiamų rezultatų skaičių .
Deja, jei tai sukelia akivaizdų pasitikėjimą "Bayesian" anti-spam filtrais, kartais klaida dar rimtesnė . Klaidingų neigiamų efektų (šlamštas, kuris atrodo lygiai taip, kaip ir įprasta paštas) poveikis gali sutrikdyti ir iškraipyti vartotojus.