Kas yra k-priemonių klasteriavimas?

Duomenų gavyba naudojant k-reikšmių algoritmą

" K- means" grupavimo algoritmas yra duomenų gavybos ir mašininio mokymosi įrankis, naudojamas stebėjimų grupėms susieti su susijusiomis stebėjimo grupėmis be išankstinių žinių apie šiuos ryšius. Atrankos būdu algoritmas bando parodyti, kokioje kategorijoje ar klasteryje priklauso duomenys, o klasterių skaičius apibrėžiamas reikšme k.

" K- means" algoritmas yra vienas iš paprasčiausių klasterizavimo metodų, kuris dažniausiai naudojamas medicininės vizualizacijos, biometrinių duomenų ir susijusių sričių srityse. K- priemonių klasterizavimo pranašumas yra tai, kad jis pasakoja apie jūsų duomenis (naudodamiesi jo neapsaugota forma), o ne apie tai, kad turite nurodyti algoritmą apie pradžioje esančius duomenis (naudodami prižiūrimą algoritmo formą).

Jis kartais vadinamas Lloyd'o algoritmu, ypač kompiuterių mokslo ratuose, nes standartinį algoritmą pirmą kartą pasiūlė Stuartas Lloydas 1957 metais. Terminas "k-means" 1967 m. Buvo sukurtas James McQueen.

Kaip k-reikšmės algoritmo funkcijos

K-reikšmių algoritmas yra evoliucinis algoritmas, kuris naudoja jo pavadinimą iš jo veikimo metodo. Algoritmas kaupia pastebėjimus į k grupes, kur k yra numatytas kaip įvesties parametras. Tada kiekvienas stebėjimas priskiriamas grupėms, remiantis stebėjimo arti klasterio vidurkio. Klasterio reikšmė yra pakartotinai apskaičiuojama, o procesas prasideda dar kartą. Štai kaip veikia algoritmas:

  1. Algoritmas savavališkai pasirenka k taškus kaip pradinius klasterio centrus (priemones).
  2. Kiekvienas duomenų rinkinio taškas priskiriamas uždarai grupei, pagrįsta Euklido atstumu tarp kiekvieno taško ir kiekvieno grupių centro.
  3. Kiekvienas klasterio centras yra pakartotinai apskaičiuojamas kaip taškų vidurkis toje grupėje.
  4. 2 ir 3 veiksmai pakartokite, kol suskirstys grupes. Konvergencija gali būti apibrėžta skirtingai, priklausomai nuo įgyvendinimo, tačiau paprastai tai reiškia, kad pastabos nepakeičia grupių, kai pakartojami 2 ir 3 žingsniai, arba kad pakeitimai nesudaro reikšmingo skirtumo klasterių apibrėžime.

Klasterių skaičiaus pasirinkimas

Vienas iš pagrindinių trūkumų, susijusių su k- klasterizavimu, yra tai, kad turite nurodyti klasterių skaičių kaip algoritmo įvestį. Kaip suprojektuotas, algoritmas negali nustatyti tinkamo skaičiaus grupių ir priklauso nuo to, kaip vartotojas jį iš anksto nustato.

Pavyzdžiui, jei jūs turėjote grupę žmonių, kurie turi būti grupuojami remiantis dvejetainiu lyties tapatybe kaip vyriška ar moteriška, skambinant k- priemonės algoritmu, naudojant įvestį k = 3, žmonės priversti į tris klasterius, kai tik du arba įvestis k = 2, suteiktų daugiau natūralaus tinka.

Panašiai, jei asmenų grupė buvo lengvai suskirstyta pagal buveinės būseną ir jūs paskatino k- priemonių algoritmą su įvestimi k = 20, rezultatai gali būti per daug apibendrinti, kad jie būtų veiksmingi.

Dėl šios priežasties dažnai yra gera idėja eksperimentuoti su kitomis k reikšmėmis, kad būtų galima nustatyti geriausiai jūsų duomenims tinkamą vertę. Jūs taip pat galbūt norėsite ištirti kitų duomenų paieškos algoritmų naudojimą ieškant žiniatinklyje žinomų mašinų.