Regresijos statistikos modelio nustatymas

by Mike Chapple

Regresija analizuoja kintamųjų santykius

Regresija yra duomenų gavybos metodas, naudojamas prognozuojant skaitmenų reikšmių diapazoną (dar vadinamas nuolatinėmis vertėmis ), atsižvelgiant į tam tikrą duomenų rinkinį. Pvz., Regresija gali būti naudojama produkto ar paslaugos kainai prognozuoti, atsižvelgiant į kitus kintamuosius.

Regresija naudojama daugelyje pramonės šakų, skirtų verslo ir rinkodaros planavimui, finansiniam prognozavimui, aplinkos modeliavimui ir tendencijų analizei.

Regresija vs. klasifikacija

Regresija ir klasifikacija yra duomenų surinkimo būdai, naudojami panašioms problemoms spręsti, tačiau jie dažnai yra painiojami. Abi yra naudojamos prognozavimo analizei, tačiau regresija yra naudojama prognozuojant skaitmeninę ar nuolatinę vertę, o klasifikacija priskiria duomenis į atskiras kategorijas.

Pavyzdžiui, regresija būtų naudojama numatant namų vertę pagal jos vietą, kvadratinėmis pėdomis, kaina, kai paskutinį kartą buvo parduota, panašių namų kaina ir kiti veiksniai. Klasifikavimas būtų tinkamas, jei norėtumėte vietoj to organizuoti namus į kategorijas, pvz., Vaikščiojimo galimybes, partijos dydį ar nusikalstamumo lygį.

Regresijos metodų tipai

Paprasčiausia ir seniausia regresijos forma yra linijinė regresija, naudojama vertinant santykį tarp dviejų kintamųjų. Ši technika naudoja matematinę tiesią liniją (y = mx + b). Paprastai tai reiškia, kad, atsižvelgiant į diagramą su Y ir X ašimi, santykis tarp X ir Y yra tiesi linija su keletu išėjimų. Pvz., Mes galime manyti, kad, atsižvelgiant į gyventojų skaičiaus augimą, maisto produktų gamyba padidėtų tokiu pačiu greičiu - tai reikalauja stipraus ir tiesinio ryšio tarp dviejų skaičių. Norėdami vizualizuoti tai, apsvarstykite grafiką, kurioje Y ašies trajektorijos populiacija didėja, o ašies ašis seka maisto gamybą. Kai Y reikšmė didėja, X vertė didėja tuo pačiu greičiu, todėl santykis tarp jų yra tiesi.

Pažangios technologijos, pvz., Daugkartinė regresija, numato santykį tarp daugybės kintamųjų - pavyzdžiui, ar yra ryšys tarp pajamų, išsilavinimo ir kur nori gyventi? Papildomų kintamųjų žymiai padidina prognozės sudėtingumą. Yra keletas rūšių daugelio regresijos metodų, įskaitant standartinę, hierarchinę, nuoseklią ir laipsnišką, kiekviena turi savo programą.

Šiuo metu svarbu suprasti, ką mes stengiamės prognozuoti (priklausomą ar numatomą kintamąjį) ir duomenis, kuriuos naudojame numatyme (nepriklausomi ar prognozuojami kintamieji). Savo pavyzdyje mes norime numatyti vietą, kurioje nori gyventi ( numatomas kintamasis), atsižvelgiant į pajamas ir išsilavinimą (tiek prognozuojami kintamieji).

Standartinė daugkartinė regresija laiko visus prognozuojamus kintamuosius tuo pačiu metu. Pavyzdžiui, 1) koks yra pajamų ir išsimokslinimo (prognozuojančiųjų) ir kaimynystės pasirinkimo (numatomo) santykis; ir 2) kokiu laipsniu kiekvienas atskiras prognozes prisideda prie šių santykių?
Pakopinis daugkartinė regresija atsako į visiškai kitokį klausimą. Pakopiško regresijos algoritmas išnagrinės, kokie prognozatoriai yra geriausiai naudojami prognozuojant kaimynų pasirinkimą - tai reiškia, kad laipsniškas modelis vertina prognozuojamų kintamųjų svarbos tvarką ir tada pasirenka atitinkamą pogrupį. Šio tipo regresijos problema naudoja "veiksmus", kad būtų sukurta regresijos lygtis. Atsižvelgiant į tokios regresijos rūšį, visi prognozuojantys veiksniai gali netgi nebūti galutinėje regresijos lygtyje.
Hierarchinė regresija , kaip ir laipsniškai, yra nuoseklus procesas, tačiau prognozuojami kintamieji įvedami į modelį išankstiniu iš anksto nustatytu tvarka, ty algoritmas neturi integruoto lygčių rinkinio, leidžiančio nustatyti, kokia tvarka įveskite prognozuojančius veiksnius. Tai dažniausiai naudojama, kai individas, sukuriantis regresijos lygtį, turi ekspertų žinias apie lauką.

Setrinė regresija taip pat panaši į laipsnišką, bet analizuoja kintamųjų rinkinius, o ne atskirus kintamuosius.

Regresija vs. klasifikacija

Regresijos metodų tipai

Alike posts

See Newest

Sapid posts