For å klargjøre data til AI trengs det ofte en opprydning. Det kan AI hjelpe deg med
Denne artikkelen ble først publisert på TU.no 6. november
Vellykket AI har en klar sammenheng med tilgang til relevante data av god kvalitet. Men fagdirektør for data og analyse i Computas, Anders Elton, forteller at det er håp for alle som sitter på ustrukturerte data de ikke får dratt nytte av. Kanskje kan nettopp AI være det som kan hjelpe virksomheten med å foredle utilgjengelige data?
Stordata, dataplattform, datasjø og datadrevne prosesser. Enhver virksomhet med respekt for seg selv har hatt ambisjoner for datautnyttelse de siste årene. Det har vært snakket om at data er det nye gullet, og mange har gått i gang med gullgravingen med friskt mot. Innsikt og automatisering har vært motivasjonen. Og for de som har turt å tenke så langt – at dataene kan brukes i AI-løsninger.
Men ikke alle som har gravd har funnet gull. For skal man lykkes med å bli datadrevet, og med bruk av AI, krever det god datakvalitet. Det betyr at dataene må være korrekte, fullstendige, oppdaterte og konsistente. Ofte er det mye som må ryddes opp i før man kommer så langt som til å trykke på AI-knappen.
– Det kreves god orden i eget hus. Data har, historisk sett, ofte vært et biprodukt, der ingen har ansvar for å rette opp i feil og mangler. Særlig gjelder dette data tilbake i tid, forteller dataekspert Anders Elton i Computas.
– Selv i store virksomheter, som gjerne kan ha mange datasett, er det sjelden noen som sitter og forvalter disse datasettene. Oppdager du noe som bør rettes opp, så har du sannsynligvis ingen å spørre eller som du kan melde feilen til.
1995, 95 eller nittifem?
Elton nevner seismikk som eksempel. I olje- og gassleting brukes lydkanoner som skyter lavfrekvente lydbølger mot havbunnen. Når et seismikkselskap skyter seismikk, tagger de når det ble skutt og når dataene ble prosessert. Dette er data de selger til oljeselskaper.
– Seismikkselskaper har holdt på med forretningen sin siden den spede starten av dataalderen. Mye av det som ble gjort tidlig hadde en del manuell input og ikke det fokuset på datakvalitet som vi forventer i dag. Hvis geologene noen ganger tagget dataene med 1995, andre ganger -95 eller nittifem med bokstaver, er det vanskelig å gjøre noe med dataene maskinelt uten å gjøre en større jobb med formatering, sier Elton.
Gjennom sin rolle som rådgiver i Computas har han hjulpet en rekke kunder i privat og offentlig sektor til å få kontroll på dataene sine og bli mer datadrevne.
– Jo større selskapet er, jo vanskeligere kan det være. De har gjerne altfor mye data og en struktur som ikke er lagt til rette for å håndtere dette. Mangel på tillit til dataene vil gjerne være en stor hindring for innovasjon, sier Elton.
Han er likevel optimist på vegne av de som fremdeles opplever å være langt fra datadrevne – og enda lengre unna bruk av AI.
– Tenk stort, men start smått. Start med å identifisere datasett som har tilfredsstillende kvalitet, tagg disse og tilgjengeliggjør dem i virksomheten, sier han.
– Det gjelder å trigge lysten til å utforske nye muligheter. Plutselig har en person sett et potensial i en datakilde som ingen andre la merke til. En datadrevet kultur kan vise seg å bli et uvurderlig konkurransefortrinn – særlig for de som klarer å snu seg rundt raskt.
Etiske og juridiske vurderinger
Etikk og jus får mye fokus når det er snakk om å ta i bruk AI. Elton oppfordrer til å starte med datasett der det er få etiske og juridiske fallgruver.
– Man må selvsagt spørre seg om dataene inneholder personopplysninger eller forretningshemmeligheter, om det er greit å sende dem til en sky, om dataene i så fall må lagres i EU, hva kan man bruke dem til og ikke. Det er også det etiske aspektet – bør man bruke dem? Men fokuser i første rekke på datasett der det er relativt ukomplisert å svare ut disse tingene, fremfor å bli sittende fast i problemstillingene.
Når en etisk og juridisk vurdering er gjort av et datasett, anbefaler Elton å tilgjengeliggjøre resultatet av avklaringene i en datakatalog. På den måten gjør man det enkelt for andre i organisasjonen som ønsker å bruke dataene fremfor at vurderingen må gjøres hver gang dataene skal tas i bruk.
– I store virksomheter kan det være en utfordring å få tilgang til datasett fra ulike interne kilder, men det er nettopp her mye av muligheten for innovasjon ligger. Da er det nyttig om man kan slå opp i en katalog og se hvilke data man har og hvilke retningslinjer man har knyttet til disse – for eksempel om de kan brukes til AI.
AI som mål – og middel
Elton sier at AI i tillegg til å være målet for mange når de ønsker å foredle dataene sine, kan være nettopp middelet i dataforedlingen.
– I dag kan man bruke generativ AI og store språkmodeller til å løse utfordringen med taggingen av årstall som nevnt i seismikk-eksempelet. Her kan AI benyttes til å øke datakvaliteten der den ikke holder mål i forhold til dagens standard.
Elton sier at det er en fordel å starte med å se på mulighetene man har på kort sikt, slik at man kommer i gang, får testet og lærer.
Computas tilbyr det de kaller en AI Discovery Workshop. Sammen med kundens nøkkelpersoner ser de her på mulighetsrommet, hvilke forretningsbehov virksomheten har og hvilke data de har tilgjengelig. Computas hjelper også til med å vurdere lover og regler, og finne innganger til hvordan dataene kan brukes.
– Kundene trenger ikke ha noen klar formening om dette i forkant av en slik workshop. Akkurat nå er det mange som er der at de vil i gang med AI, uten å ha klare tanker om til hva og hvordan. Vår erfaring er at vi gjennom denne workshopen hjelper kundene i gang, sier Elton.
– Bare det å få klarert hvilke data som kan legges til skyen er utrolig nyttig. Når slike ting faller på plass så kommer gjerne de gode idéene også.