Kas tiksliai yra "dideli duomenys"?

Ir kodėl tai didelis sandoris?

"Dideli duomenys" yra naujas mokslas suprasti ir prognozuoti žmogaus elgesį, tiriant didelius kiekius nestruktūruotų duomenų. Dideli duomenys taip pat žinomi kaip "nuspėjamoji analizė".

Analizuojant "Twitter" pranešimus, "Facebook" sklaidos kanalus, "eBay" paieškas, "GPS trackers" ir bankomatus, yra keletas didelių duomenų pavyzdžių. Kitokios formos yra studijų apsauginiai vaizdo įrašai, srauto duomenys, orų prognozės, atvykstantys skrydžiai, mobiliųjų telefonų bokšto žurnalai ir širdies ritmo sekimo programos. Dideli duomenys yra netinkamas naujas mokslas, kuris keičiasi kas savaitę, ir tik keletas ekspertų tai supranta.

Kokie yra kai kurių didelių duomenų pavyzdžiai įprastiniame gyvenime?

ekrano kopija http://project.wnyc.org/transit-time

Nors dauguma didelių duomenų projektų yra labai neaiškūs, yra sėkmingų didelių duomenų, turinčių įtakos asmenų, bendrovių ir vyriausybių kasdieniniam gyvenimui, pavyzdžiai.

Prognozuojant virusų protrūkius: ištyrus socialinius ir politinius duomenis, duomenis apie orą ir klimatą bei ligoninių / klinikinius duomenis, dabar šie mokslininkai prognozuoja fejerverkų dangaus protrūkius, įspėja prieš 4 savaites.

Žudynių stebėjimas: šiame dideliame duomenų projekte aprašomi aukų, įtariamųjų ir nusikaltėlių nužudymai Vašingtone. Ir šis būdas gerbti mirusiuosius, ir kaip supratimo šaltinis žmonėms, šis didelis duomenų projektas yra įdomus.

Tranzito kelionių planavimas, NYC: WNYC radijo programuotojas Steve'as Melendez'as sujungė internetinį metro maršrutų planą su kelionių maršruto programine įranga. Jo kūryba leidžia niujorkiečiams spustelėti jų vietą žemėlapyje, ir pasirodys traukinių ir metro kelionės laikas.

"Xerox" sumažino darbo jėgos praradimą: " call center" veikla yra emociškai nuobodi. "Xerox" studijuoja duomenų srautą profesionalių analitikų pagalba, ir dabar jie gali numatyti, kuris skambučių centro samdomas darbuotojas greičiausiai ilgiausiai liktų su kompanija.

Parama kovai su terorizmu: teisėsaugos institucijos, mokydamos socialinę žiniasklaidą, finansinius įrašus, skrydžio atsargas ir saugumo duomenis, gali nuspėti ir atpažinti įtariamuosius teroristus prieš tai, kai jie daro savo piktus darbus.

Tinklalapio rinkodaros reguliavimas, pagrįstas socialinės žiniasklaidos recenzijomis : žmonės tiesiogiai ir greitai dalijasi savo internetinėmis mintimis pub, restorane ar sporto klube. Galima išmokti šių milijonų socialinės žiniasklaidos pranešimų ir teikti įmonėms atsiliepimus apie tai, ką žmonės galvoja apie savo paslaugas.

Kas naudoja didelius duomenis? Ką jie daro?

Daugelis monolitinių korporacijų naudoja didelius duomenis, kad pritaikytų savo pasiūlymus ir kainas, kad maksimaliai padidintų klientų pasitenkinimą.

Kodėl dideli duomenys yra tokie dideli sandoriai?

4 dalykai reikšmingi duomenys yra svarbūs:

1. Duomenys yra didžiuliai. Tai netelpa viename kietajame diske , daugiausiai USB laikmenoje . Duomenų kiekis gerokai viršija tai, ką gali suvokti žmogaus protas (pagalvokite milijardą milijardų megabaitų, o tada padidinkite daugiau milijardų).

2. Duomenys yra netvarkingi ir nestruktūruoti. Nuo 50% iki 80% didelių duomenų yra informacijos konvertavimas ir valymas, kad būtų galima ieškoti ir rūšiuoti. Tik keli tūkstančiai mūsų planetos ekspertų visiškai žino, kaip tai atlikti. Šiems ekspertams taip pat reikalingos labai specializuotos priemonės, tokios kaip HPE ir Hadoop, kad galėtų atlikti savo darbą. Galbūt po dešimties metų didžiuliai duomenų ekspertai taps viename dešimtmetyje, bet dabar jie yra labai retas analitikas ir jų darbas vis dar yra labai neaiškus ir nuobodus.

3. Duomenys tapo prekiu **, kurį galima parduoti ir pirkti. Yra duomenų rinkų, kuriose įmonės ir asmenys gali įsigyti terabaitų socialinės žiniasklaidos ir kitų duomenų. Dauguma duomenų yra pagrįsti debesėmis, nes jie yra per dideli, kad tilptų į bet kurį standųjį diską. Duomenų pirkimas paprastai apima prenumeratos mokestį, kai prisijungiate prie debesų serverių ūkio.

** Didžiųjų duomenų įrankių ir idėjų lyderiai yra "Amazon", "Google", "Facebook" ir "Yahoo". Kadangi šios įmonės aptarnauja tiek daugybę milijonų žmonių, teikiančių savo internetines paslaugas, prasminga, kad jos būtų surinkimo punktas ir didžioji duomenų analizės vizija.

4. Didžiųjų duomenų galimybės yra begalinės. Galbūt gydytojai vieną dieną prognozuoja širdies priepuolius ir insultus asmenims savaites, kol jie įvyks. Lėktuvo ir automobilio avarijos gali būti sumažintos prognozuojant jų mechaninių duomenų ir eismo bei oro sąlygų analizę. Pažintys internete gali pagerėti, jei turėsite didelių duomenų apie tai, kas yra suderinama jūsų asmenybė. Muzikantai gali sužinoti, kokia muzikinė kompozicija yra patraukliausia besikeičiančiai tikslinės auditorijos skoniui. Mitybos specialistai galėtų nuspėti, kokia parduotuvėje įsigytų maisto produktų sudėtinė dalis susilpnins arba padėtų asmens sveikatos būklei. Paviršius buvo tik subraižytas, o didelių duomenų atradimai įvyksta kiekvieną savaitę.

Dideli duomenys yra netinkami

Monty Rakusen / Getty

Dideli duomenys yra nuspėjamoji analizė: masyvių nestruktūruotų duomenų konvertavimas į kažką, kurį galima rasti ir sugrupuoti. Tai yra netvari ir chaotiška erdvė, kuri reikalauja specialių žinių ir kantrybės.

Paimkite, pavyzdžiui, monolitinę UPS pristatymo paslaugą. "UPS" programuotojai iš savo vairuotojų "GPS" ir "Smartphone" išmeta duomenis, kaip efektyviausiai prisitaikyti prie eismo spūsčių. Šie GPS ir išmaniųjų telefonų duomenys yra gigantiški, o ne automatiškai paruošti analizei. Šie duomenys pateikiami iš įvairių GPS ir žemėlapių duomenų bazių per įvairius išmaniųjų telefonų aparatūros įrenginius. "UPS" analitikai praleido mėnesius, pertvarkydami visus šiuos duomenis į formatą, kurį galima lengvai ieškoti ir surūšiuoti. Vis dėlto pastangos buvo vertos. Šiandien UPS sutaupė daugiau nei 8 milijonus litrų degalų, nes pradėjo naudoti šiuos didelius duomenų analizės įrankius.

Kadangi dideli duomenys yra nepatogūs ir reikalauja tiek daug pastangų, kad būtų galima išvalyti ir pasiruošti naudoti, duomenų mokslininkai tapo vadinamuoju "duomenų laikytoju" visam jų varginančiam darbui. The

Vis dėlto didėja duomenų apie didelius duomenis ir nuspėjamoji analizė kiekvieną savaitę. Tikisi, kad iki 2025 m. Visi duomenys bus prieinami visiems.

Ar "Big Data" nėra įžeidžianti grėsmė privatumui?

Feingersh / Getty

Taip, jei mūsų įstatymai ir asmens privatumo apsauga nėra kruopščiai valdomi, tada dideli duomenys patenka į asmens privatumą. " Google" , "YouTube" ir "Facebook" jau stebi jūsų kasdienius įpročius . Kiekvieną dieną jūsų išmanusis telefonas ir kompiuterių gyvenimas palieka skaitmeninį pėdsaką, o modernios įmonės studijuoja tuos pėdsakus.

Apie didelius duomenis reglamentuojantys įstatymai vystosi. Privatumas yra būklė, kad jūs dabar privalote prisiimti asmeninę atsakomybę, nes jūs negalėsite daugiau tikėtis, kad tai bus numatytoji teisė.

Ką galite padaryti, kad apsaugotumėte savo privatumą:

Didžiausias vienintelis žingsnis, kurį galite atlikti, yra aptikti kasdienius įpročius naudodamas VPN tinklo ryšį . VPT paslauga sugriebins jūsų signalą, kad jūsų tapatybė ir vieta būtų bent iš dalies užmaskuotos stebėjams. Tai nepadarys 100% anonimiškumo, tačiau VPN žymiai sumažins, kiek pasaulyje gali stebėti jūsų įpročius internete.

Kur galėčiau sužinoti daugiau apie didelius duomenis?

Monty Raskusen / Getty

Dideli duomenys yra patrauklūs žmonėms, turintiems analitinių protų ir meilės technologijoms. Jei tai tau, tada tikrai apsilankykite šiame įdomių didelių duomenų projektų puslapyje.