Hvad er datamining?
Datamining er processen, der gennemsøger store datasæt for at finde relevant information, der kan bruges til et bestemt formål. Data mining er både essentielt for datavidenskab og business intelligence og handler primært om mønstre.
Når dataene er indsamlet og gemt, kan skabe mening med dataene – ellers er det hele selvsagt meningsløst. Dataanalysen udføres på flere måder, som fx ved hjælp af begreber som maskinindlæring, hvor komplekse adaptive algoritmer analyserer dataene.
Mere traditionelle datamining-metoder omfatter dataforskere – eksperter, der er oplært specifikt til at forstå komplekse oplysninger – der udarbejder rapporter, som ledelsen handler ud fra.
Hvordan fungerer datamining?
Data mining handler bl.a. om at undersøge og analysere store mængder oplysninger for at finde meningsfulde mønstre og tendenser. Processen indsamler data, udvikle et mål og anvender datamining-teknikker. Den valgte taktik varierer med målet, men dataminingens empiriske proces er altid den samme. En typisk datamining-proces kan se sådan her ud:
Definer målet: Vil man for eksempel vide mere om kundernes adfærd? Vil man reducere omkostningerne eller øge omsætningen? Vil man finde svindel? Det er vigtigt at definere et klart mål, når man starter dataminingen.
Saml dine data: De data, man indsamler, afhænger af målet. Organisationer gemmer typisk data i flere databaser – som for eksempel oplysninger, som kunder afgiver gennem transaktioner og så videre.
Rens dataene: Når først dataene er valgt, skal de typisk renses, omformateres og valideres.
Undersøg dataene: Her dykker analytikere ned i dataene, ved at køre statistiske analyser og lave visuelle grafer og diagrammer. Formålet er at identificere variabler, der er vigtige for målet med dataminingen, og at danne indledende hypoteser, der kan skabe en model.
Byg en model: Der findes flere forskellige datamining-teknikker – se nedenfor – og på dette stadie, er målet at finde den datamining-tilgang, der giver de mest brugbare resultater. Analytikerne kan bruge en eller flere af tilgangene, der opsummeres i næste afsnit, afhængigt af deres mål. Modelbygning er en iterativ proces og der ofte kræver, at dataformateringen gentages, da nogle modeller fordrer, at data formateres på bestemte måder.
Valider resultaterne: På dette stadie, undersøger analytikerne resultaterne for at kontrollere, om de er nøjagtige. Hvis de ikke er det, må man genskabe modellen og prøve igen.
Implementer modellen: Den indsigt, man finder, kan bruges til at opfylde det mål, der blev defineret i starten af processen.
Typer af datamining
Der findes flere forskellige datamining-teknikker, og valget afhænger af det overordnede mål. Der findes flere forskellige datamodeller, som bruger forskellige datamining-teknikker. De primære datamodeller kaldes deskriptive, prædiktive og præskriptive:
Deskriptiv modellering
Den finder ligheder eller grupperinger, i historiske data, for at forstå grunden til succes eller fiasko, som kategorisering af kunder efter hhv. produktpræferencer eller følelser. Prøveteknikker omfatter:
- Associationsregler: Det kaldes også markedskortanalyse. Den slags datamining søger efter relationer mellem variablerne. Associationsreglerne kan fx gennemgå en virksomheds salgshistorik for at se, hvilke produkter, man oftest køber sammen. Det kan virksomheden bruge til planlægning, promovering og prognoser.
- Clusteranalyser: Clustering finder ligheder inden for et datasæt, ved at dele datapunkter, der deler fælles træk, op i delmængder. Clustering er godt til at definere trækkene i et datasæt, som segmentering af kunder, baseret på købsadfærd, behovstilstand, livsfase eller præferencer for marketingkommunikation.
- Analyse af afvigelser: Denne model bruges til at identificere anomalier – det vil sige data, der ikke passer ind i mønstrene. Analyser af afvigelser er gode til at afsløre svindel, opdage brud på netværket samt kriminel efterforskning.
Prædiktive prognoser
De modeller rækker dybere for at klassificere fremtidige begivenheder eller estimere ukendte udfald – for eksempel ved at bruge kreditvurderinger til at bestemme sandsynligheden for at en given person tilbagebetaler et lån. Prøveteknikker omfatter:
- Beslutningstræer: -bruges til at klassificere eller forudsige et resultat, baseret på en række kriterier. Man bruger beslutningstræer til at anmode om input på en række overlappende spørgsmål, der sorterer datasættet, baseret på de givne svar. Beslutningstræer ligner træer og viser ofte en specifik retning og/eller brugerinput, når man bores dybere ned i dataene.
- Neurale netværk: De behandler data ved hjælp af noder. Noderne består af input, vægte og et output. Lige som den menneskelige hjerne er fuld af forbindelser, kortlægges dataene gennem overvåget læring. Modellen kan tilpasses til at give tærskelværdier, så man kan bestemme en models nøjagtighed.
- Regressionsanalyse: Regressionsanalysen søger at forstå de vigtigste faktorer i et datasæt, hvilke faktorer der kan ignoreres, og hvordan disse faktorer interagerer.
- Klassifikation: Det indebærer, at datapunkterne fordeles i grupper eller klasser, baseret på et specifikt spørgsmål eller en udfordring, der skal løses. Hvis en forhandler fx ønsker at optimere sin rabatstrategi, for et specifikt produkt, kan man se på data on salg, lagerniveauer, indløsningsrater på kuponer eller forbrugeradfærd for at vejlede beslutningerne.
Præskriptive modeller
Med den store vækst i ustrukturerede data, fra internet, e-mails, kommentarfelter, bøger, PDF’er og andre tekstkilder, er brugen af ”textmining” – som en tilknytning til datamining – også vokset betydeligt. Dataanalytikere har brug for evnen til at analysere, filtrere og transformere ustrukturerede data for at inkludere dem i prædiktive modeller, så man kan forbedre forudsigelsernes nøjagtighed.
Typer af data i datamining
Typer af data, der kan behandles, omfatter:
- Data, som ligger i en database eller et datavarehus
- Transaktionsdata – fx flyreservationer, klik på hjemmesider, butikskøb osv
- Tekniske designdata
- Sekvensdata
- Graf data
- Rumlige data
- Multimediedata
Hvorfor er datamining vigtig?
De fleste organisationer bliver mere digitale. Derfor oplever mange virksomheder, at de besidder enorme mængder af data, som, hvis de analyseres ordentligt, kan være lige så værdifulde som deres kerneprodukter og -tjenester.
Datamining giver virksomheder en konkurrencemæssig fordel, ved at hjælpe med skabe viden ud fra data, fra digitale transaktioner. Ved at forstå kundernes adfærd bedre, kan virksomhederne designe nye produkter, tjenester eller markedsføringsteknikker. Her er nogle af de fordele, som datamining kan give til virksomheden:
Optimer prissætningen:
Når virksomheder bruger datamining til at analysere de forskellige prisvariabler, som efterspørgsel, elasticitet, distribution og opfattelse af brandet, kan man fastsætte priserne på det niveau, der maksimerer profitten.
Optimer marketing:
Datamining giver virksomheder mulighed for at segmentere deres kunder efter adfærd og behov. Dermed kan de levere personligt tilpassede annoncer, der klarer sig bedre og er mere relevante for kunderne.
Større produktivitet:
Analyser af medarbejdernes adfærdsmønstre kan indgå i HR’s initiativer og forbedre medarbejdernes engagement og produktivitet.
Større effektivitet:
Lige fra kundernes købsmønstre til leverandørernes prissætninger, kan virksomheder bruge datamining og dataanalyser til at forbedre effektiviteten og reducere omkostningerne.
Større fastholdelse af kunder:
Datingmining kan levere effektiv viden, som hjælper dig med at forstå dine kunder bedre. Det kan således forbedre dine interaktioner med kunderne og øge fastholdelsen.
Forbedrede produkter og tjenester:
Når man bruger datamining til at finde og optimere ethvert område, hvor kvaliteten ikke rækker, kan reducere antallet af returvarer.
Brug af datamining
Data mining bruges til mange formål, afhængigt af organisationen og dens behov. Her er nogle muligheder:
Salg
Datamining kan hjælpe med at øge salget. Tænk for eksempel på en point-of-sale -kasse, i en strøgbutik. For hvert salg, registrerer butikken købstidspunktet, de produkter, der blev solgt sammen, og hvilke produkter, der er mest populære. Forhandleren kan bruge oplysningerne til at optimere produktsortimentet.
Marketing
Virksomheder kan bruge datamining til at forbedre deres markedsføring. Dataminingens resultater kan fx bruges til at forstå, hvor kundeemner opfatter annoncer, hvilken demografi, man skal målrette, hvor man skal placeres digitale annoncer, og de marketingstrategier, der fungerer bedst med kunderne.
Produktion
Når det gælder virksomheder, der producerer deres egne varer, kan man bruge datamining til at analysere omkostninger til råmaterialer, om materialerne bruges mest effektivt, hvordan tiden optimeres under fremstillingsprocessen, og hvilke barrierer, der påvirker processen. Datamining kan bruges til at understøtte just-in-time-levering, ved at forudsige, hvornår man skal bestille nye varer, eller hvornår udstyret skal udskiftes.
Registrering af svindel
Formålet med datamining er at finde mønstre, tendenser og sammenhænge, der forbinder flere datapunkter. Organisationer kan bruge datamining til at identificere afvigende data eller korrelationer, der ikke burde eksistere. En virksomhed fx analysere pengestrømmene og finde gentagne betalinger til en ukendt konto. Hvis det virker overraskende, kan virksomheden undersøge om der er tale om svindel.
Human ressource
HR-afdelinger råder ofte over en bred vifte af data, som data om fastholdelse af medarbejdere, forfremmelser, lønintervaller, virksomhedsgoder og hvordan de bliver brugt samt medarbejdertilfredshedsundersøgelser. Datamining kan korrelere dataene og skabe en bedre forståelse af, hvorfor medarbejdere siger op, og hvad der motiverer nye til at skrive under.
Kundeservice
Kundetilfredshed består af flere forskellige faktorer. Tag for eksempel en forhandler, der sender varer ud. En kunde kan være utilfreds med leveringstiden, kvaliteten eller kommunikationen om leveringen. Den samme kunde kan være frustreret over langsomme svar på mails eller lange ventetider i telefonen. Dataminingen samler brugbare informationer om kundeinteraktioner og opsummerer resultaterne, så man kan finde de svage punkter samt de områder, hvor virksomheden gør det godt.
Fastholdelse af kunder
Virksomheder kan bruge dataminingen til at finde karakteristika på de kunder, der skifter til konkurrenterne, og dermed sende særlige tilbud for at fastholde andre kunder, som ligner dem.
Sikkerhed
Teknikker, der registrerer indtrængere, bruger datamining til at identificere de uregelmæssigheder, der kan være brud på netværket.
Underholdning
Streamingtjenester bruger datamining til at analysere det, som brugerne ser eller lytter til, og til at foreslå personlige anbefalinger, baseret på deres vaner.
Sundhed
Datamining hjælper læger med at diagnosticere sygdom, behandle patienter og analysere røntgenbilleder eller andre medicinske billeder. Medicinsk forskning afhænger meget af datamining, maskinlæring og andre former for analyser.
Dataminingens fremtid
Cloud computing-teknologierne har haft stor betydning for væksten af datamining. Uanset problemer og udfordringer med sikkerheden i skyen, er cloud-teknologierne velegnede til de høje hastigheder, enorme mængder af semi-strukturerede og ustrukturerede data, som mange organisationer gør brug af. Skyens elastiske ressourcer skaleres for at opfylde kravene fra big data. Derfor, da skyen indeholder flere data i forskellige formater, kræver det også flere dataminingværktøjer at omdanne dem til viden. Derudover findes der avancerede former for datamining, som AI og maskinlæring, som tjenester i skyen.
Fremtidige udviklinger inden for cloud computing fortsætter sikkert med at fremme behovet for mere effektive dataminingværktøjer. AI og maskinlæring vokser, og det samme gør mængden af data. Skyen bruges i stigende grad til at gemme og behandle data til fordel for forretningen. Det virker sandsynligt, at brugen af datamining blive mere og mere afhængigt af skyen.
FAQ om datamining
Ofte stillede spørgsmål om database-mining, hvordan datamining fungerer, og betydningen af datamining omfatter:
Hvor bruger man datamining?
Datamining bruges til at undersøge store datamængder for at finde mønstre og viden, der kan bruges til specifikke formål. Disse formål omfatter fx forbedringer af salg og marketing, optimeringer af produktion, registrering af svindel og bedre sikkerhed. Datamining bruges på tværs af en flere sektorer, som fx bank, forsikring, sundhed, detailhandel, spil, kundeservice, videnskab og teknik og meget mere.
Hvordan virker datamining?
Dataanalytikere følger generelt en vis strøm af opgaver, i data mining-processen. En typisk dataminingproces begynde med at definere målet for dataanalysen, og arbejder så på at forstå, hvor dataene er gemt, hvordan de indsamles, og hvilken analyse, der kræves. De næste trin forbereder dataene til analyse, bygger modellen, evaluerer resultaterne af den og implementerer så ændringer og overvåger resultater.
Hvorfor bruger man datamining?
Datamining bruges til at finde organisatoriske udfordringer og muligheder. Det kan også bruges til at optimere produktpriser, forbedre produktiviteten, øge effektiviteten, forbedre kundeservice og fastholdelse og bidrage til produktudvikling. Datamining giver virksomheder en konkurrencemæssig fordel, ved at hjælpe med skabe viden ud af data, fra digitale transaktioner.
Relaterede artikler:
- Sådan afholder du datamæglere fra at sælge dine data
- Hvad er datatyveri, og hvordan undgår man det?
- Hvad er datakryptering?
Relaterede produkter: