Hemmelig dugnad for å få fart på digitaliseringen

Hva har språklæringsappen Duolingo og CAPTCHA til felles? Kunstig intelligens, en Guatemalsk informatiker og gratis arbeidskraft som får fart på digitaliseringen.

Hvis en tjeneste er gratis, tenker du kanskje at du er produktet? At dine personlige data blir lagret og solgt til en tredjepart? Det er jo som kjent ingen som gir deg gratis lunsj uten videre. Men noen ganger er kanskje kostnaden ikke dine personlige data, men din arbeidskraft som et menneske som klarer å utføre oppgaver datamaskiner ikke klarer å utføre.

CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) har kanskje de fleste kjennskap til. De irriterende omvendte turingtestene hvor man skal plotte inn hvilke bokstaver man ser på skjermen eller hvilket av bilderutene som inneholder trafikklys eller busser.

CAPTCHA-test med 8 tegn.

Testene forhindrer roboter fra å overlasse internett med spam. CAPTCHA ble laget av den Guatemalske informatikeren Luis von Ahn etter han hadde fått nyss om at Yahoo slet med at millioner av falske brukere ble registrert av boter. Luis baserte CAPTCHA på at Douglas Hofstadter fant ut at datamaskiner kun gjenkjenner standardisert tekst. Brukeren skal bevise at hen er menneskelig ved å gjenkjenne og skrive inn ikke-standardisert tekst i et tekstfelt. Luis ga bort programvaren til Yahoo som publiserte løsningen to uker etterpå.

Det som i utgangspunktet kun var en test for å skille mennesker og datamaskiner, ble senere en måte å digitalisere bøker på. Optisk tegngjenkjenning (engelsk: optical character recognition, OCR) er en måte for datamaskiner å “lese” tekst på. Noen eldre bøker har tekst som er vanskelig for datamaskiner å lese, så Luis fant ut at han kunne sysselsette de to hundre millioner menneskene som sammen brukte fem hundre timer om dagen for å bevise at de faktisk er mennesker. Hver gang to datamaskiner leste forskjellige ord eller ikke visste hva et ord var, ble mennesker satt på jobben via å gjennomføre en CAPTCHA-test.

Denne gangen skulle Luis ta betalt for genistrekene sine, og ba om 42.000 dollar per årsverk av gamle aviser i New York Times sine arkiver han klarte å digitalisere. Dette argumenterte han at var én tredjedel av prisen ekte mennesker skulle ha for jobben (og det var samtidig ingen som visste at de gjorde en dørgende kjedelig jobb). Luis solgte senere selskapet sitt til Google for en sum stor nok til at både han og hans eventuelt fremtidige barn kunne pensjonere seg.

Starten på Duolingo

Men det er jo kjedelig å pensjonere seg når man bare er 30 år gammel, så Luis fant ut sammen med studenten med det merkverdige navnet Severin Hacker enda en ting datamaskiner er ganske dårlige på: oversettelser av språk. Ved å lære seg nye språk kan man kan komme seg ut av fattigdom og man kan få tilgang til informasjon som før ikke var tilgjengelig for deg. Hvis internettsider også var mulig å leses på flere språk, gir det samtidig flere mennesker tilgang på informasjon.

Luis og Hacker skapte et program som ikke bare lærte folk nye språk, men de som brukte programmet oversatte samtidig tekster på nettet. Så tjenesten var gratis for folk flest, mens Buzzfeed og CNN betalte Duolingo for at de fikk brukerne deres til å oversette innholdet deres.

Selv om dette var grunntanken til Duolingo, å oversette nettsider, så fant de raskt ut at dette var vanskelig å skalere på sikt. Etter to år endret de modellen deres til å være mer lik Wikipedia: at frivillige lager språkkursene og hvem som helst kan foreslå forbedringer.

Kunstig intelligens for språklæring

Duolingo fant ut at de ønsket å tilby brukerne deres mer 1–1-veiledning for betalende brukere og hadde i utgangspunktet tenkt å bruke menneskelige veiledere/lærere til dette. Men når de fikk teste ut GPT-4-modellen til OpenAI valgte de å fokusere på kunstig intelligens som samtalepartnere for å lære språk.

Skjermbilder fra Duolingo Max.
Skjermbilde fra Duolingo Max.

Måten de bruker kunstig intelligens på er at man kan spille rollespill med en av karakterene til Duolingo i en gitt setting. Der skal man konversere, og bruken av GPT-4 gjør at samtalen kan bli ganske reell og interaktiv. Etterpå får man tilbakemelding på hvordan man gjorde det og hvordan man kan forbedre seg i språket.

Duolingo har også som mål å bruke kunstig intelligens til å lage nye kurs, da dette har vært tidkrevende for mennesker å gjøre, men understreker at det alltid er mennesker som kvalitetssikrer innholdet før det slippes til brukerne.

GIF av en robotarm som fører en penn på musen på en datamaskin for å bevise at hen ikke er en robot.
Robot som utfører en CAPTCHA-test.

Neste gang du utfører en test som du tenker “kunne ikke denne oppgaven vært gjort av en datamaskin?” er kanskje svaret nettopp at den ikke kan det, men at du hjelper datamaskinen til å skjønne mer og for å få fart på digitaliseringen.

Kilder:

Annet:


Hemmelig dugnad for å få fart på digitaliseringen was originally published in Compendium on Medium, where people are continuing the conversation by highlighting and responding to this story.