Klasifikavimas duomenų gavyboje

Klasifikavimas yra duomenų gavybos metodas, pagal kurį kategorijos priskiriamos duomenų rinkimui, siekiant padėti tiksliau prognozuoti ir analizuoti. Taip pat vadinamas kartais vadinama " sprendimų medžiu" , klasifikavimas yra vienas iš kelių metodų, kurio paskirtis yra labai didelių duomenų rinkinių analizė.

Kodėl klasifikacija?

Labai didelės duomenų bazės tampa normomis šiandieniniame "didelių duomenų" pasaulyje. Įsivaizduokite duomenų bazę su keliais terabaitais duomenų - terabaitas yra vienas trilijonas baitų duomenų.

"Facebook" kiekvieną dieną mažina 600 terabaitų naujų duomenų (nuo 2014 m., Kai paskutinį kartą pranešė apie šias specifikacijas). Pagrindinis didžiųjų duomenų iššūkis yra tai, kaip tai suprasti.

Ir vienintelis klausimas nėra vienintelė problema: dideli duomenys taip pat yra įvairūs, nestruktūruoti ir greitai keičiasi. Apsvarstykite garso ir vaizdo duomenis, socialinės žiniasklaidos pranešimus, 3D duomenis ar geoerdvinius duomenis. Tokios rūšies duomenys nėra lengvai suskirstyti į kategorijas ir organizuojami.

Siekiant šio iššūkio buvo sukurta daugybė automatinių naudingos informacijos gavybos metodų, tarp jų ir klasifikavimas .

Kaip veikia klasifikacija

Pavojus pernelyg peraugti į tech-kalbą, aptarkime, kaip klasifikacija veikia. Tikslas yra sukurti klasifikavimo taisyklių rinkinį, kuris atsakys į klausimą, priims sprendimą arba prognozuos elgesį. Pradedant, sukurtas mokymo duomenų rinkinys, kuriame yra tam tikras atributų rinkinys, taip pat tikėtinas rezultatas.

Klasifikavimo algoritmo užduotis - sužinoti, kaip šis atributų rinkinys pasiekia išvadą.

Scenarijus : galbūt kredito kortelių kompanija bando nustatyti, kurioms perspektyvoms turėtų būti pasiūlyta kredito kortelė.

Tai gali būti jo mokymo duomenų rinkinys:

Mokymo duomenys
vardas Amžius Lytis Metinės pajamos Kreditinės kortelės pasiūlymas
John Doe 25 M 39 500 USD Ne
Jane Doe 56 F 125 000 USD Taip

"Prognozuojančio" stulpeliai Amžius , Lytis ir Metinės pajamos nustato "numatomo atributo" " Kreditinės kortelės pasiūlymo " vertę. Mokymo komplekse prognozuojamas atributas yra žinomas. Tada klasifikacijos algoritmas bando nustatyti, kaip buvo pasiektas prognozuojamo atributo vertė: kokie yra santykiai tarp prognozuojančiųjų ir sprendimo? Ji parengs prognozavimo taisyklių rinkinį, paprastai IF / THEN teiginį, pavyzdžiui:

IF (Amžius> 18 ARBA Amžius <75) IR METINĖS PAJAMOS> 40.000 TOL, "Credit Card Offer" = taip

Akivaizdu, kad tai yra paprastas pavyzdys, o algoritmui reikės kur kas didesnio duomenų atrankos, nei čia pateikti du įrašai. Be to, prognozavimo taisyklės greičiausiai bus daug sudėtingesnės, įskaitant paprogrames, skirtas užfiksuoti atributų detales.

Be to, algoritmui pateikiamas analizuojamų duomenų "prognozavimo rinkinys", tačiau šiam rinkiniui trūksta prognozavimo atributo (arba sprendimo):

Predikatoriaus duomenys
vardas Amžius Lytis Metinės pajamos Kreditinės kortelės pasiūlymas
Jackas Frostas 42 M 88 000 USD
Mary Murray 16 F $ 0

Šie prognozuojami duomenys padeda apskaičiuoti prognozavimo taisyklių tikslumą ir tada taisyklės yra tinkamos, kol kūrėjas mano, kad prognozės yra veiksmingos ir naudingos.

Klasifikavimo dienos iš dienos pavyzdžiai

Klasifikavimas ir kiti duomenų gavybos būdai yra daugelio mūsų kasdienės vartotojų patirties.

Orų prognozės gali naudoti klasifikaciją, kad būtų pranešta, ar diena bus lietinga, saulėta ar debesuota. Medicinos specialistai gali analizuoti sveikatos būklę, kad prognozuotų medicininius rezultatus. Klasifikavimo metodas, Naive Bayesian, naudoja sąlyginę tikimybę suskirstyti šlamšto el. Laiškus. Nuo sukčiavimo aptikimo iki pasiūlymų dėl produktų, kiekvieną dieną klasifikavimas yra užkulisiuose, analizuojant duomenis ir pateikiant prognozes.