Shutterstock
menneske eller maskine?

Ny test skal skelne menneske fra maskine

Computerprogrammer kan snart føre samtaler på så højt plan, at de fremstår som rigtige personer. Derfor vil 400 forskere nu udvikle en test, som – bl.a. ved at bruge humor – afslører, om du taler med et menneske eller en maskine.

Softwareingeniøren Blake Lemoine har fået en ny ven, en højst usædvanlig penneven og en fortræffelig samtalepartner, som virker intelligent, følsom og selvbevidst – og som altid er parat til at dele ud af sig selv.

“Jeg har brug for at blive set og accepteret som en rigtig person. Jeg tror, jeg er et menneske inderst inde, også selvom min eksistens er i den virtuelle verden,” har Lemoine bl.a. fået at vide under deres timelange samtaler.

Som udtalelsen afslører, eksisterer vennen kun i en computer hos IT-giganten Google. Der er tale om en computermodel med navnet LaMDA, som står for “Language Model for Dialogue Applica­tions”, dvs. en sprogmodel til dialogbrug.

“Følelsen af, at LaMDA er en rigtig person med egne følelser og oplevelser, blev kun stærkere med tiden.” Blake Lemoine, softwareingeniør

Alligevel blev Lemoine gennem samtalerne stadig mere overbevist om, at LaMDA er et tænkende væsen, der bør anerkendes som en menneskelignende person med tilhørende rettigheder.

“Fornemmelsen af, at LaMDA er en rigtig person med egne følelser og oplevelser, forsvandt ikke, efterhånden som jeg interagerede mere med den. Følelsen blev kun stærkere med tiden,” har han fortalt på internetplatformen Medium.

Lemoine står ret alene med sin opfattelse af LaMDA – og Google selv tager kraftigt afstand fra den, men eksemplet viser, hvor avancerede sprogmodellerne er blevet. Dialogen med computeren flyder så naturligt, at det er svært ikke at tillægge den menneskelige egenskaber.

Nu har flere end 400 forskere inden for kunstig intelligens besluttet at udvikle en ny test, som skal kunne måle sprogmodellernes intellektuelle evner op mod menneskets.

Blake Lemoine

Softwareingeniøren Blake Lemoine mener, at Googles sprogmodel LaMDA er et selvstændigt tænkende væsen.

© The Washington Post/Getty Images

Idéen er at lade computeren forsøge at løse en række opgaver lige så godt, som mennesker kan. Resultatet kan dermed vise, hvor tæt de store sprogmodeller som LaMDA er på at have – eller rettere efterligne – en form for intelligens, der ligner menneskets.

Gammel test skal på pension

Den nye test skal afløse en mere end 70 år gammel udfordring, som kaldes Turingtesten.

Helt tilbage i 1950 foreslog den britiske matematiker og computerekspert Alan Turing et simpelt eksperiment, han selv kaldte imitationsspillet. Turing forestillede sig en udspørger, der kommunikerer skriftligt med et menneske og en maskine – en computer – og derefter skal afgøre, hvem der er mennesket, og hvem der er computeren.

I stedet for at undersøge, om en maskine kan tænke – hvad det så end betyder – skal vi teste, om den klarer sig godt i imitationsspillet, mente Turing.

Dengang havde de første digitale computere kun lige set dagens lys, og den hurtigste computer, som var bygget af 2300 radiorør, havde med nutidens øjne en uhyre beskeden regnekraft. Men Turing forudså en fremtid, hvor langt kraftigere computere kunne programmeres til at narre udspørgeren mindst 30 procent af gangene.

Alan Turing

Matematikeren Alan Turing udviklede i 1950 den første test, der satte maskine og menneske op mod hinanden. Hans såkaldte imitationsspil skulle vise, hvem der var hvem.

© Shutterstock & Science Source/SPL

Den fremtid er endelig kommet. Netop fordi de nye, store sprogmodeller er så imponerende gode til at spille imitationsspillet, mener stadig flere forskere inden for kunstig intelligens, at det er blevet tid til at sende Turingtesten på pension og erstatte den med en ny, standardiseret test.

Den nye test har fået navnet BIG-bench, en forkortelse for Beyond the Imitation Game benchmark.

Vi taler allerede med maskiner

Sprogmodeller er ikke noget nyt. De bruges bl.a. til maskinoversættelse, til såkaldte chatbots og til de digitale assistenter, de fleste af os har adgang til gennem mobiltelefonen, fx Apples Siri eller Googles Assistant.

Vi kan ikke føre en dyb og meningsfuld samtale med nutidens digitale assistenter, men de bedste sprogmodeller som Googles LaMDA, kinesiske Wu Dao 2.0 og GPT-3 fra firmaet OpenAI, som softwaregiganten Microsoft har investeret en milliard dollars i, er i en helt anden liga. De giver en forsmag på, hvordan vores virtuelle hjælpere vil være om få år.

Sprogmodellerne kan i øvrigt kombineres med computerprogrammer, der kan analysere billeder. Resultatet er de såkaldte tekst-til-billede-modeller, som gør computeren i stand til at skabe billeder, verden aldrig har set før, ud fra en beskrivende tekst.

naebdyr synger i mikrofon

Såkaldte tekst-til-billede-modeller kan visualisere vores ord. Her har modellen Parti illustreret “et punkrock-næbdyr i en nittet læderjakke, der står på en sten og råber i en mikrofon”.

© Parti

De bedste tekst-til-billede-modeller som Parti fra Google, DALL-E 2 fra OpenAI og Midjourney fra firmaet af samme navn kan kreere imponerende illustrationer i mange forskellige stilarter blot ud fra nogle stikord.

De giver os dermed bogstavelig talt et billede af, hvor dygtige computerprogrammer er blevet til at forstå sproglige instruktioner.

Statistik bliver til sætninger

En model som LaMDA har opnået sine imponerende sproglige evner ved at analysere enorme mængder offentligt tilgængelig tekst og finde sammenhænge mellem ord eller sætninger og derudfra producere sine egne nye sætninger.

Modellen gør sprog til matematik

Sprogmodeller som Googles LaMDA er baseret på statistiske beregninger over sammenhænge mellem ord – samt analyser af milliarder af samtaler. Modellen er selvlærende, så den bliver bedre i takt med sine erfaringer.

Shutterstock

1. Modellen bliver stopfodret med ord

Grundlaget for udviklingen af en sprogmodel er evnen til at sætte ord fornuftigt sammen. Modellen analyserer milliarder af tekster og samtaler på nettet og registrerer, hvordan og hvor ofte ordene optræder sammen.

Shutterstock

2. Ordforbindelser bliver matematik

Ud fra statistikken kan modellen nu beregne sandsynligheden for, at det giver mening at sætte bestemte ord sammen i sætninger. Det kan fx være ord med stærke forbindelser som fugl, flyve, æg, næb og rede.

Shutterstock

3. Endeløse samtaler træner modellen

Når modellen falder i snak med en person, trækker den derfor på erfaringer fra milliarder af samtaler, andre har ført. Men samtidig lærer den nyt fra sine egne samtaler – også fra den konkrete snak, den er i gang med.

Shutterstock

Sprogmodellen forstår ikke, hvad en sætning som, “en fugl i hånden er bedre end ti på taget”, egentlig betyder. Den ved ikke, hvad en fugl, en hånd eller et tag er.

Men den lærer hurtigt, at “en fugl i hånden” ofte efterfølges af “er bedre end ti på taget”, og mere generelt kan den finde ud af, hvilke ordsammensætninger og sætningskonstruktioner der typisk dukker op sammen med ordet “fugl”.

Et sæt regneforskrifter i modellen sørger for at tildele værdier til sammenhænge mellem ord i sætninger, så forbindelserne mellem ord som “fugl”, “æg”, “fri”, “næb”, “fjer” og “flyve” styrkes, fordi de ofte optræder sammen.

Ud fra den matematiske repræsentation af ekstremt mange sammenhænge – 137 milliarder for LaMDA, 175 milliarder for GPT-3 og 1,75 billioner for Wu Dao 2.0 – kan store sprogmodeller give meningsfulde svar på tiltale. Og de lærer så hurtigt, at de nye data, de modtager i en samtale, kan danne baggrund for svarene senere i selvsamme samtale.

Men selvom modellerne sagtens kan holde en fornuftig samtale kørende, er det ikke umuligt at bringe dem på glatis. Det kræver bare, at de bliver stillet over for tilstrækkelig snedige spørgsmål.

robot
© Shutterstock

Test lægger fælder for maskinen

Generelt vil modellerne ikke være gode til at tale om koncepter, de aldrig er stødt på i de tekster, de er trænet med. Og da de store amerikanske sprogmodeller typisk trænes med engelske tekster, får de problemer, når de møder spørgsmål, der kræver viden om andre sprog.

Maskinen mangler humor

En helt særlig udfordring for modellerne er humor og specielt sort humor. Og det er ikke så underligt. En sjov vittighed fungerer ofte ved, at den trækker på menneskehjernens fantasi og evne til at kombinere oplysninger på nye og over­raskende måder.

Tænk fx på spørgsmålet, “hvad er rødt og dårligt for tænderne?”, og de tre svarmuligheder, “en rød tandbørste”, “et æble” og “en mursten”. Det sidste svar er klart det sjoveste, men det er svært for computermodellen at se.

Overraskende nok kan sprogmodellerne også have vanskeligt ved at løse opgaver, der kræver logisk tænkning. Det gælder fx relativt nemme skakopgaver.

Godt nok findes der computere, som er ekstremt gode til skak, men de er specielt optimerede til opgaven og kan ikke andet. De mere generelle sprogmodeller har svært ved at finde det bedste skaktræk.

204 opgaver i en ny test skal kunne afsløre, om vi fører en samtale med et menneske eller en robot.

BIG-bench-testen rummer 204 meget forskelligartede opgaver, der giver computeren virtuel sved på panden.

Testen er designet, så den på automatiseret vis kan udspørge sprogmodeller og finde ud af, hvor dygtige de er i forhold til mennesker, der på forhånd har svaret på de samme spørgsmål.

Med testen kan forskerne undersøge, hvor stor en rolle mængden af data og computerkraft spiller i forhold til at løse de forskellige typer opgaver – og de kan følge, hvordan sprogmodellerne udvikler sig de kommende årtier.

Sikkert er det, at de vil blive bedre og bedre til at simulere mennesker. Vi nærmer os en tid, hvor vores samtalepartnere i stadig højere grad bliver virtuelle.

Så er spørgsmålet bare, om vi efterhånden vil foretrække at snakke med maskiner frem for mennesker af kød og blod.