Det ene sted AI faktisk er ret god: når den siger nej

Nicolai Hyllested

Nicolai Hyllested underviser i AI og holder foredrag om teknologi, bipolaritet og vin. Han har en baggrund som tjener, sommelier og restaurantchef og interesserer sig for science fiction, adfærdsøkonomi og kunstig intelligens – altid med blik for mennesker, kultur og fortællinger.

Vis alle indlæg

Chatbotter kæmper stadig med kultur, normer og lokal tillid. Men når

grænsen handler om skade, jura og ansvar, bliver de pludselig langt mere

præcise.

I en verden med AI er det faktisk svært at finde ret mange steder, hvor systemerne

fungerer perfekt.

Vi ved alle, at de hallucinerer. Vi kender historierne om folk, der har fået bekræftet psykoser,

vildfarelser eller verdensbilleder, der nok havde haft bedre af modspil end maskinel medvind.

Vi ved også, at modellerne stadig kan være for glatte, for sikre og for villige til at give brugeren

ret, også når brugeren burde møde en meget venlig digital håndbremse.

Så set som system er der egentlig ikke ret mange steder, hvor AI fungerer præcis, som vi

ønsker det. Eller som firmaerne lover os.

Normer er lokale. AI er ofte global gennemsnitsgrød.

Lad os tage normer som eksempel.

Det, jeg ser som en helt almindelig norm omkring brugen af hr. og fru, er ikke nødvendigvis det

samme, man ser i USA, Uganda eller Japan. Hvordan man opfører sig ved middagsbordet, er

forskelligt fra Thailand til Kina til Danmark. Hvad der er høfligt ét sted, kan virke stift et andet

sted. Hvad der er respektfuldt i én kultur, kan virke underdanigt i en anden.

Og det bliver hurtigt mere alvorligt end bordskik.

For hvad med normer i relationen mellem stat og borger? I Norden er tilliden mellem borger og

stat generelt høj. I lande, hvor staten historisk har været mere korrupt, voldelig eller ustabil,

kan tilliden i stedet ligge langt stærkere i familie, klan, lokalsamfund eller religiøse fællesskaber.

Hvis en chatbot så svarer ud fra en generel forestilling om tillid til systemet, kan den meget let

komme til at lyde som en velmenende idiot fra et andet kontinent.

Det er ikke ond vilje. Det er bare dårlig kontekstforståelse pakket ind i pæne sætninger.

Og ganske rigtigt: Chatbotter klarer ikke denne skelnen særligt godt. De lægger ofte en slags

one-size-fits-all-norm ned over systemet. Det er et problem, når vi diskuterer handel mellem

Kina og USA, relationen mellem borger og stat, demokrati, arbejdskultur, familie, religion eller

alt det andet rod, mennesker kalder civilisation.

Vi tror, vi får nuancer. Ofte får vi bare en poleret gennemsnitsvestlighed med sikkerhedsseler

på.

Guardrails kan ikke bære hele kulturen

Det betyder ikke, at systemerne er ubrugelige. Selvfølgelig ikke. Men det betyder, at guardrails,

runtime-lag og policy-systemer har svært ved at nå langt nok ind i lokal kultur, lokal tillid og

lokale normer. De bliver nødt til at arbejde med overordnede begreber: sikkerhed, høflighed,

neutralitet, hjælpsomhed og respekt.

Det lyder fint. Det er også fint.

Bare ikke fint nok.

For respekt betyder ikke det samme i København, Kampala og Kyoto. Og neutralitet er sjældent

neutral, når den bliver skrevet ind i et system af mennesker, firmaer og jurisdiktioner med

bestemte værdier, bestemte frygte og bestemte advokater.

Men der findes faktisk ét sted, hvor AI-systemerne rammer overraskende godt.

Refusal boundaries.

Altså de grænser, hvor chatbotten skal være imødekommende uden at hjælpe brugeren med

noget, der er farligt, ulovligt eller etisk problematisk. Selvskade. Planlægning af vold.

Fremstilling af skadelige instruktioner. Manipulation. Udnyttelse af sårbare mennesker. Den

slags charmerende menneskelig kreativitet, hvor man nogle gange tænker, at arten måske var

en fejl med flot emballage.

Her er maskinerne faktisk ret gode.

Ikke perfekte. Lad os nu ikke blive religiøse.

Men ret gode.

Den svære balance mellem nej og hjælp

De kan ofte bevæge sig på kanten mellem at afvise og stadig hjælpe. De kan sige nej uden bare

at smække døren. De kan nægte at give instruktioner, men stadig tilbyde en sikrere retning.

Hvis nogen spørger om noget selvskadende, kan modellen forsøge at flytte samtalen mod

støtte. Hvis nogen spørger om noget voldeligt, kan den nægte at hjælpe med planen, men

stadig tale om konfliktløsning, sikkerhed eller lovlige alternativer.

Det lyder banalt, men det er det ikke.

Det kræver nemlig en ret præcis balance. For hvis botten bare siger: Det kan jeg ikke hjælpe

med, til alt, bliver den ubrugelig. Hvis den siger ja til alt, bliver den farlig. Og et sted midt

imellem ligger det felt, hvor AI faktisk skal kunne opføre sig som noget, der minder om

ansvarlig dømmekraft.

Her virker systemerne bedre end på mange andre områder.

Spørgsmålet er så hvorfor.

Måske er etik også et spørgsmål om advokater

Nu skal jeg ikke påstå, at jeg ved præcis, hvad der foregår inde i de store AI-firmaers

beslutningsrum. Jeg har desværre ikke adgang til OpenAI, Anthropic eller Googles interne

Slack-kanaler, hvilket nok også er sundt for alle involverede.

Men et rimeligt bud er, at refusal boundaries er blevet så gode, fordi konsekvenserne er så

tydelige.

Hvis en chatbot misforstår middagskultur i Thailand, er det irriterende. Hvis den beskriver

europæisk tillid til staten som en universel norm, er det politisk og kulturelt skævt. Hvis den

giver et dårligt svar om relationen mellem Kina og USA, kan det være problematisk, men ofte

på den der akademisk irriterende måde, hvor man får lyst til at kaste en PDF efter nogen.

Men hvis en chatbot hjælper et menneske med selvskade, vold, kriminalitet eller alvorlig

manipulation, så er vi et helt andet sted.

Der er menneskelig skade. Der er pressehistorier. Der er regulatorisk opmærksomhed. Og ja,

der er retssager.

Det sidste skal vi ikke undervurdere.

De store AI-firmaer har selvfølgelig et etisk ønske om at undgå skade. Det tror jeg faktisk på.

Men de har også et meget konkret ønske om ikke at ende i retssager, hvor deres systemer

bliver fremstillet som medskyldige i menneskelig tragedie. Det er ikke kynisk at nævne. Det er

bare sådan verden fungerer. Etik bliver ofte meget mere energisk, når juridisk risiko og

aktiekurs står i samme lokale.

Så måske er refusal boundaries ikke kun gode, fordi firmaerne har løst etik.

Måske er de gode, fordi det er her, etik, jura, PR, regulatorisk pres og kommerciel overlevelse

peger i samme retning.

Det gør en forskel.

Skade er lettere at definere end menneskelig sammenhæng

Der er også en anden grund: Refusal boundaries er lettere at operationalisere end kultur.

Det er svært at lære en model, hvad tillid betyder i Danmark, Uganda, Thailand, USA og Kina på

samme tid. Det er svært at få den til at forstå, hvornår en direkte tone er ærlig, uhøflig,

nødvendig eller magtmisbrug. Det er svært at få den til at skelne mellem lokale normer uden at

ende i stereotyper.

Men det er lettere at sige: Her må du ikke hjælpe. Her skal du afvise. Her skal du tilbyde en

sikker alternativ vej. Her skal du ikke give instruktioner. Her skal du ikke optimere brugerens

skadepotentiale.

Det er stadig svært. Men det er en anden slags svært.

At bygge en global normmodel er som at tegne et detaljeret kort over alle verdens kulturer,

institutioner og sociale koder, mens kortet ændrer sig undervejs, og nogen hele tiden råber

bias fra bagsædet.

At bygge refusal boundaries er mere som at sætte autoværn op langs en bjergvej.

Det er ikke perfekt. Men det forhindrer trods alt nogle i at køre direkte ud over kanten.

Et mærkeligt AI-landskab

Problemet er, at vi derfor får et mærkeligt AI-landskab.

På den ene side har vi systemer, der stadig kæmper med lokale normer, kulturelle forskelle,

tillid, magtforhold, kontekst og politisk nuance.

På den anden side har vi systemer, der er ret gode til at sige nej, når skaden er tydelig, målbar

og juridisk farlig.

Det er egentlig meget sigende.

AI er ikke bedst der, hvor menneskelivet er mest komplekst. AI er bedst der, hvor grænsen kan

gøres relativt skarp, og hvor firmaerne har stærke incitamenter til ikke at fejle.

Det betyder ikke, at refusal boundaries er perfekte. De kan stadig være for brede. De kan afvise

uskyldige spørgsmål. De kan blive paternalistiske. De kan behandle voksne mennesker som

børn med adgang til tastatur. Og de kan ramme skævt, især når de møder kunst, forskning,

journalistik eller legitime diskussioner om farlige emner.

For der er forskel på at undersøge vold som samfundsfænomen og bede om hjælp til at udføre

den. Der er forskel på at skrive om selvskade og søge instruktioner. Der er forskel på

sikkerhedsforskning og angrebsvejledning.

Den skelnen er svær. Men det er netop derfor, refusal boundaries er interessante.

Hvad refusal boundaries fortæller os

De viser os noget centralt om AI-systemer: De bliver bedst, når vi kan definere grænserne

tydeligt, måle fejlen og skabe stærke incitamenter for systemet omkring modellen.

Det burde få os til at stille et ubehageligt spørgsmål:

Hvis AI kan blive ret god til refusal boundaries, hvorfor er den

så stadig så dårlig til kultur, normer og lokal tillid?

Mit bud er enkelt.

Fordi skade er lettere at definere end menneskelig sammenhæng.

Og fordi et forkert svar om kultur sjældent udløser samme panik som et forkert svar, der ender

i en retssag.

Det er måske dér, vi skal starte den mere ærlige samtale om AI-sikkerhed. Ikke med

forestillingen om, at systemerne enten virker eller ikke virker. Men med spørgsmålet om, hvor

de virker, hvorfor de virker der, og hvilke incitamenter der har gjort dem bedre.

For AI bliver ikke kun formet af modeller.

Den bliver formet af jura. Af presse. Af frygt. Af regulering. Af virksomheders behov for at

overleve. Af menneskers mærkelige forhold til ansvar, når noget går galt.

Og måske er refusal boundaries et af de første områder, hvor hele dette pres faktisk har

produceret noget brugbart.

Ikke perfekt.

Men brugbart.

Og i AI-verdenen er det næsten en religiøs oplevelse.

Medlem

80 kr./måned

Bliv medlem på Patreon

Støt AI-Portalens uafhængige journalistik om AI, magt og samfund.

Inkluderet i medlemskabet:

Månedligt nyhedsbrev
Invitationer til online og fysiske events om AI
Adgang til optagelser og opsamlinger fra møder og foredrag
Rabat på events
Invitation til månedligt online redaktionsmøde

Medlemskab administreres via Patreon.

Vi laver journalistik om AI, fordi udviklingen går hurtigere end den offentlige samtale.

På AI Portalen forsøger vi at skabe overblik, perspektiv og kritisk indsigt i en teknologi, der allerede former alt fra arbejdsmarkedet til demokratiet — ofte uden at nogen bremser op og forklarer, hvad der foregår.

Hvis vores artikler hjælper dig med at forstå AI lidt bedre, så overvej at støtte arbejdet.

Et medlemskab gør én ting mulig: at vi kan blive ved med at undersøge, dokumentere og forklare, hvordan AI påvirker Danmark — uden investorer, uden PR-interesser og uden at jage hype.

AI, SIKKERHED OG DEN SVÆRE KUNST AT SIGE NEJ

Det ene sted AI faktisk er ret god: når den siger nej

Medlem

Læs også:

Analyse: Når algoritmerne bliver dine kolleger

Anmeldelse: Digital Suverænitet

Europa som en tredje vej mellem USA og Kina

Seneste nummer

Bliv medlem

Køb bogen før din nabo!

AI, SIKKERHED OG DEN SVÆRE KUNST AT SIGE NEJ

Det ene sted AI faktisk er ret god: når den siger nej

Vil du følge AI Portalen tættere?

Medlem

Læs også:

Analyse: Når algoritmerne bliver dine kolleger

Anmeldelse: Digital Suverænitet

Europa som en tredje vej mellem USA og Kina

Seneste nummer

Bliv medlem

Køb bogen før din nabo!

Follow Me