Analyse

Q*-projektet: OpenAI’s potentielle gennembrud imod AGI

2023/11/30 at 1:00 pm Mark Sinclair Fleeton2023/11/30

en futuristisk AI-hjerne bestående af intrikate kredsløb og glødende neurale netværk, hvilket symboliserer avanceret kunstig intelligens og komplekse problemløsningskapaciteter. AI-hjernen er omgivet af matematiske symboler og ligninger, der illustrerer dens dygtighed inden for matematik. — Billede: Mark Sinclair Fleeton/ChatGPT og Dall-E

Læsetid 9 minutter

Array

TL;DR:

Q* repræsenterer en potentiel revolution inden for reinforcement learning, kombinerende Q-learning og A*-algoritmer.
Q* formodes at have overlegen evne til at løse og generalisere matematiske problemer.
Projektet anses som et vigtigt skridt mod udviklingen af Artificial General Intelligence (AGI).

I den hastigt udviklende verden af kunstig intelligens (AI) har OpenAI, en af de store i branchen, endnu en gang fanget opmærksomheden med deres mystiske og potentielt banebrydende projekt, kendt internt som Q* (Q-Star). Hvis man skal tro rygterne, så repræsenterer det en ny tilgang inden for reinforcement learning – en AI-teknik, der allerede spiller en central rolle i mange af dagens avancerede AI-systemer. Mens detaljerne om Q* stadig er indhyllet i mystik og det stadigt ikke vides om Q* overhovedet er en realitet, så åbner de få tilgængelige oplysninger op for spændende perspektiver omkring AI’s fremtid og dens anvendelser i forskellige industrier. I denne artikel udforsker vi, hvad vi ved om Q*, dets potentiale, og hvordan det kunne ændre spillet inden for kunstig intelligens og dens indflydelse på vores hverdag.

Baseret på et læk

Historien om en lækket rapport fra OpenAI, der tilsyneladende havde sat bestyrelsen i alarmberedskab og i sidste ende måske endda fremprovokerede den overraskende fyring af Sam Altman som CEO brød frem mens dramaet om Sam Altmans fyring var på sit højeste og endnu uafklaret. Reuters og The Information var de første på banen og deres artikler satte en lavine af spekulationer i gang. OpenAI selv har dog ikke ønsket at hverken be- eller afkræfte den lækkede rapport, der lægger til grund for de to mediers historie. I det første interview siden hans fyring og genansættelse til The Verge, sagde Altman: ”Jeg har ikke rigtigt nogle kommentarer til den uheldige læk.”

God til matematik

Spekulationerne gik i første omgang på, om OpenAI med Q* havde fundet en vej til AGI (Artificial General Intelligence) – altså en AI, der fungerer på niveau med eller bedre end mennesker. Det som artiklerne fra Reuters og The information gik på var dog, at Q*, hvis det var et reelt projekt, ikke var AGI, men et stor skridt mod AGI. Men hvad er det egentligt, der får medierne og deres kilder til at konkludere, at Q* kan være så afgørende? I lægmands sprog er det først og fremmest, at den er god til matematik. Traditionelle AI-modeller – inklusive store sprogmodeller som GPT-4 – mangler en dybdegående forståelse af matematiske principper og logik. De er begrænset til beregninger eller at reproducere løsninger fra deres træningsdata. Informationen til Reuters tyder dog på, at Q* har en mere fundamental forståelse for matematiske koncepter. Helt centralt er, at modellen tilsyneladende har evnen til at generalisere læring fra en type matematisk problem til et andet.

Reinforcement learning

Som nævnt, så tyder noget på, at Q* er en ny tilgang til reinforcement learning, som er en af de grundlæggende tre måder at træne AI-modeller. Supervised learning, hvor du kort sagt ved, hvad du vil have modellen til at lære. Fotogenkendelse ved at vise modellen forskellige billeder af det, du vil have den skal genkende er et eksempel på supervised learning. Unsupervised learning henviser til, når du ikke nødvendigvis ved, hvad det er modellen skal lære. Her sætter du modellen til selv at lede efter mønstre og finde sammenhænge i datamaterialet. Reinforcement learning er den tredje form for træning af AI-modeller og her handler det om, at få modellen til at træffe beslutninger. For at lære modellen det, tildeler man den belønninger eller modsat straf for rigtige og forkerte beslutninger. Her taler vi om belønning og straf i form af værdier – 1 point for belønning og 0 for straf (altså ingen point).

Q-learning og A*

Fra flere sider har man tolket heftigt på navnet Q* blandt andet her i Forbes, hvor man spekulerer i om der kan være tale om en blanding af Q-learning og A*-algoritmen. Når man blander Q-learning og A*-algoritmer, skaber man en hybrid AI-model, der integrerer styrkerne fra begge tilgange.

Q-Learning: Dette er en form for reinforcement learning, hvor en agent lærer at tage beslutninger gennem en proces med belønning og straf. Agenten opbygger en tabel, kendt som en Q-tabel, der gemmer værdier (Q-værdier), som repræsenterer den forventede nytte af at tage en given handling i en bestemt tilstand. Q-learning fokuserer på at optimere langsigtet belønning, hvilket gør det muligt for agenten at tage beslutninger, der måske ikke umiddelbart er belønnende, men som fører til større belønninger i fremtiden.

A*-Algoritme: A* er en søgealgoritme, der anvendes til at finde den korteste vej mellem to punkter. Den bruger en heuristisk metode – man kan meget forenklet kalde det en tommelfingerregel – til at anslå den bedste rute og udforsker kun de stier, der synes at være mest lovende. Dette gør A* meget effektiv til at løse problemer, der involverer at finde en optimal rute gennem et komplekst netværk.

Kombination af Q-Learning og A*

Når disse to tilgange kombineres, får man en model, der ikke kun lærer fra erfaring (som i Q-learning), men også effektivt kan navigere og optimere i komplekse miljøer (som med A*-algoritmen). Den kombinerede model kan træffe beslutninger, der både tager højde for langsigtede belønninger (som i Q-learning) og effektivt finder den bedste vej eller løsning (som i A*). Modellen vil have en øget evne til at generalisere, hvilket betyder, at den kan anvende læring fra én situation på en anden, lignende situation. Dette sker, fordi Q-learning giver en forståelse for generelle principper, mens A* optimerer specifikke løsninger. Denne kombination er særligt kraftfuld i situationer, hvor der er behov for at navigere i komplekse miljøer eller udføre komplekse opgaver, da den kan udnytte både strategisk planlægning og effektiv løsningsfinding.

Samlet set giver kombinationen af Q-learning og A* en robust og fleksibel tilgang til problemløsning i AI, hvilket kan føre til mere avancerede og tilpasningsdygtige systemer.

Vejen til AGI

Det er altså først og fremmest Q*-modellens formodede evne til langt mere effektivt at træffe beslutninger og dens evner indenfor ræsonnement, logik og matematik, der gør, at nogle forskere ser modellen som et vigtigt skridt mod AGI. AGI referer til AI, der kan udføre enhver intellektuel krævende opgave, som et menneske kan. Det kræver en bred og fleksibel forståelse og evne til at generalisere læring på tværs af forskellige områder. Hvis Q* kan generalisere løsninger på matematiske problemer og anvende denne forståelse i forskellige sammenhænge, viser det en form for kognitiv fleksibilitet, der er central for AGI. Q*’s formodede avancerede problemløsningsevner indenfor matematisk antyder en evne til at tackle komplekse udfordringer, som går ud over simple beregninger og faktuel viden. Det kan også tolkes som en manifestation af en form for autonomi, altså selvstændig tænkning, som er nødvendig for AGI.

Etiske og sikkerhedsmæssige bekymringer

Udover de bekymringer, der også er forbundet med specialiseret eller svag AI, som er det vi har i dag, som brug til skadelige formål, manglende gennemsigtighed og forklarbarhed, privatlivs udfordringer, arbejdsløshed og økonomisk ulighed, så forstærker AGI bekymringen for kontroltab. Jo mere avanceret og jo mere uigennemsigtig teknologien er, jo større er risikoen for kontroltab. Det er denne bekymring, som ligger bag bevægelsen, der enten ønsker at stoppe eller sætte udviklingen af AI-systemer på pause indtil den del er afklaret. Det er formodentligt denne frygt, som mange har spekuleret i gjorde OpenAI’s bestyrelse bekymret, men det skal sige, at der ikke er nogle udtalelser fra den tidligere bestyrelse, der underbygger dette.