How to Build a Effective Data Science Model

Data is everywhere, but getting value out of this data is what poses to be the biggest challenge. Mutta datatieteen käyttöönoton myötä asiat ovat kääntyneet hyvään suuntaan. Kaikki puhuvat siitä ja kaikki haluavat sisällyttää tämän uudemman teknologian, mutta kaikki eivät ymmärrä, miten edetä. Joten tässä on kattava opas, joka värvää elintärkeitä vaiheita rakentaa onnistuneen data science malli. Aloitetaan.

mitä on datatiede?

Datatiede on taito analysoida ja louhia tietoista tietoa aineistosta. Louhinnan taustalla on domain-asiantuntemusta, ohjelmointia ja jonkin verran matematiikkaa & tilastoja, jotka toimivat yhdessä mielekkään johtopäätöksen tekemiseksi. Datatiede on ollut hieno löytö, joka on ohjannut yrityksiä kohti uskomattomia voittoja. Etkö usko sitä?

alla olevat esimerkit havainnollistavat samaa:

  • Southwest Airlines säästi lähes 100 miljoonaa dollaria minimoimalla koneiden joutokäyntiajan kiitoradalla
  • UPS säästi kuin lähes 39 miljoonaa gallonaa polttoainetta reittioptimoinnin avulla

etkö ole hämmästynyt datatieteen levittämästä taikuudesta? Southwest Airlines ja UPS tekivät täällä loistavaa työtä. Mutta se ei ollut yhden päivän työ. On asioita, jotka he tekivät eri tavalla ja sinäkin voisit tehdä niin.

suuri askel kohti muutosta on datatieteellisen mallin rakentaminen. Jos sinusta tuntuu naiivi siitä, miten edetä prosessi, tässä on joitakin olennaisia vaiheita.

1. Tiedon louhinta

aluksi täytyy olla käsitys käsillä olevasta ongelmasta, kun taas tiedon kerääminen seuraa seuraavaksi. Ei mitään tietoja, mutta kerättyjen jäsentämättömien tietojen pitäisi olla merkityksellisiä liiketoiminnan ongelma olet ratkaisemassa. Sinun olisi yllättynyt tietää, miten World Wide Web osoittautuu siunaus tietojen löytämistä.

Suositut online – tietovarastot, joihin voit viitata:

  • Kaggle — a place for data science projects
  • UCI ML Repository – the machine learning Archive
  • Dataset Search Engines – the Google-based dataset search
  • NCBI – the academic research platform for Biotechnology

Huom: Kaikki data ei ole relevanttia ja päivitettyä. Jotta järkeä pois kerätyt tiedot, Käytä tietojen kaavinta. Se on yksinkertaistettu ja automatisoitu prosessi olennaisten tietojen saamiseksi verkkosivustoilta.

2. Siirrytään Datasiivoukseen

Oletko kuullut, että asioita ei kannata jättää huomiselle? Tällä on merkitystä, jos haluat puhdistaa tietoja, kun keräät niitä. Mitä pikemmin irtisanomisista pääsee eroon, sen parempi!

tässä on muutamia yleisiä tietolähteitä virhetiedoille:

  • monista tietokannoista kerätyt päällekkäiset merkinnät
  • virhe syöttötiedoissa tarkkuuden osalta
  • tietueita muutettiin / päivitettiin / poistettiin
  • puuttuvat arvot eri tietokantojen muuttujissa

temppuja yhteisten virhelähteiden poistamiseksi:

  • suodattaa kaksoiskappaleet viittaamalla yhteisiin tunnuksiin
  • Lajittele tiedot viittaamalla päivityspäivämäärään, toisin sanoen suosimalla viimeisintä tietomerkintää
  • Täytä puuttuvat tietomerkinnät keskiarvolla

3. Sukellus syvälle aineistoon

nyt kun jokainen tietolähde on valmis, voit aloittaa analysoimalla olennaisia kuvioita. Käyttämällä mielenkiintoisia työkaluja, kuten Tableau tai mikro strategia voi auttaa tonnia. Sinun tarvitsee vain rakentaa interaktiivinen kojelauta ja nähdä, miten tietosi tulee peili tärkeitä oivalluksia.

kuva olisi selkeä ja nyt tietäisit, mikä yritystoimintasi muuttuvia ominaisuuksia ajaa. Esimerkiksi, jos se on hinnoittelu ominaisuus, tiedät, milloin hinta vaihtelee ja miksi.

5. Tunnistamalla kriittiset ominaisuudet

yritettäessä saada käsiinsä liiketoiminnan keskeisiä malleja, feature engineering voidaan ottaa käyttöön. Tätä vaihetta ei voi jättää huomiotta, koska se on edellytys sopivan koneoppimisalgoritmin viimeistelylle. Lyhyesti sanottuna, jos ominaisuudet ovat vahvoja, koneoppimisen algoritmi tuottaisi mahtavia tuloksia.

on olemassa kaksi piirroskategoriaa, joista on huolehdittava:

  • Vakioominaisuudet, jotka eivät todennäköisesti muutu
  • muuttuvia ominaisuuksia, joiden arvot vaihtelevat aika ajoin

6. Koneoppimisen maailman tutkiminen

Tämä on yksi tärkeimmistä vaiheista, sillä koneoppimisen algoritmi auttaa rakentamaan toimivan tietomallin. On olemassa monia algoritmeja valita, mutta ei huolta, koska data tiedemies tekisi siitä cakewalk sinulle.

datatutkijoiden sanoin koneoppiminen on prosessi, jossa otetaan käyttöön koneita järjestelmän tai sen taustalla olevan prosessin ymmärtämiseksi ja tehdään muutoksia sen parantamiseksi. Ja, algoritmi voidaan kutsua joukko ohjeita tietokonejärjestelmän ajaa tietyn tehtävän.

tässä on kolme erilaista koneoppimismenetelmää, joista sinun tulee tietää:

koneoppimisen tyypit
  • valvottu oppiminen: se perustuu aiemmin samankaltaisen prosessin tuloksiin. Ohjattu oppiminen auttaa ennustamaan historiallisiin kuvioihin perustuvaa tulosta.

esimerkki: tarkastelemalla nettimainoksia, jotka saivat aiemmin suurimmat klikkaukset, voi ennustaa, mikä on se tietty ominaisuus, joka saa käyttäjän klikkaamaan välittömästi.

valvotun oppimisen hyväksi todetut algoritmit:

-lineaarinen regressio

-Satunnaismetsä

-Tukivektorikoneet

  • valvomaton oppiminen: tästä oppimismenetelmästä puuttuu edelleen olemassa oleva tulos tai malli. Sen sijaan, se keskittyy analysoimaan yhteyksiä ja suhteita tietoelementtien.

esimerkki: Kun näet Facebookista ”ehdotetut ystävät” – ominaisuuden. Sosiaalisen median alusta laskee, kuinka monta kaveria kahdella käyttäjällä on yhteistä. Mitä enemmän on yhteisiä ystäviä, sitä läheisempiä he ovat.

kokeiltuja algoritmeja valvomattomaan oppimiseen:

-k-keinot

-Apriori-algoritmi

  • vahvistaminen oppiminen: tämä on mielenkiintoinen koneoppimisen menetelmä, joka nojaa dynaamiseen tietojoukkoon, joka on vuorovaikutuksessa reaalimaailman kanssa. Yksinkertaisesti sanottuna se on menetelmä, jossa järjestelmä oppii virheistään ja paranee päivä päivältä.

esimerkki: Deep Blue oli IBM: n shakkieksperttinä luoma järjestelmä. Systeemi meni aloittelijatasolta ammattilaistasolle parantumalla joka pelissä.

hyväksi havaitut algoritmit vahvistusoppimiseen:

-Q-Learning

-State-Action-Reward-State-Action (SARSA)

-Deep Q Network

7. Evaluate & ota malli käyttöön

kun olet valinnut oikean koneoppimisen algoritmin, seuraavaksi tulee sen arviointi. Sinun täytyy validoida algoritmi tarkistaa, onko se tuottaa toivottuja tuloksia yrityksesi.

tekniikat, kuten ristivalidointi tai jopa Roc (Receiver operating characteristic)-käyrä, toimivat hyvin mallituloksen yleistämisessä uutta dataa varten. Jos malli näyttää tuottavan tyydyttäviä tuloksia, olette kaikki valmiita menemään! Toteuttaa malli ja nähdä yrityksesi tehdä ero kuin koskaan ennen.

  • insinööreille annetaan valta ottaa malli käyttöön vastaavaan tuotantovaiheeseen. Tässä asiantuntijat kääntävät mallin tuotantopinokielelle, mikä helpottaa hienoa toteutusta.
  • toiseksi on perustettu infrastruktuuri, joka tekee datatutkijoista riittävän riippumattomia ottamaan tietomallin käyttöön aivan yksin. Tämä on mahdollista sovellusliittymien kanssa, jotka saavat vauhtia hyvää vauhtia. Nämä sovellusliittymät pyrkivät poistamaan datatieteen ja hankkeessa mukana olevien ryhmien väliset viiveet.

Key Takeaway:

riippumatta siitä, millä sektorilla yrityksesi toimii, datatieteen pitäisi olla seuraava suuri kokeilusi. Datatiedemallin rakentaminen on kaunis matka erilaisten tietokokonaisuuksien keräämiseen ja merkityksen antamiseen.

nyt on täydellinen aika aloittaa datatiedehanke, jos todella haluaa päästä kilpailunsa edelle. Seuraa lueteltuja ohjeita ja aloita heti! Loppujen lopuksi tavoitteena on muuttaa data informaatioksi ja informaatio oivalluksiksi.

Author bio:

Paige Griffin on kokenut sisällön kirjoittaja Net Solutions, Los Angeles 7 vuotta asiantuntemusta bloggaaminen, kirjallisesti luova ja tekninen kopio suoran vastauksen markkinoilla ja myynninedistämistarkoituksessa mainonta B2B ja B2C industries. Syntynyt ja kasvanut New Yorkissa, Paige on Alempi korkeakoulututkinto Englanti kirjallisuus. Hän on työskennellyt muun muassa it -, Tuotetekniikka-ja Lifestyle-aloilla ja kirjoittanut hienoja oivalluksia teknologioista kuten python web development, php web development, iOS App development ja niin edelleen. Teknisen taustansa lisäksi hän on sydämeltään runoilija, joka rakastaa olla yhteydessä ihmisiin annoksella luovuutta ja mielikuvitusta.

Vastaa

Sähköpostiosoitettasi ei julkaista.