Centrum Karla Čapka | Novinky [Existenční rizika a AI]

Existenční rizika a AI

Polemika

Tento text vznikl primárně jako reakce na brožuru Máme se bát umělé inteligence?, kterou zveřejnila skupina z Centra Karla Čapka pro studium hodnot ve vědě a technice. Brožurka je pěkná a informativní. Popisuje jak základní principy AI systémů, tak i etické problémy, které už dnes lidstvo trápí. A souhlasím, že je potřeba čelit výzvám budoucnosti ohledně trhu práce, dezinformací či diskriminace. Nicméně nesouhlasím s některými konkrétními tvrzeními, a hlavně s celkovým vyzněním části o existenčních rizicích (str. 10–13), jejíž závěr je, že „úvahy o rizicích spojených s obecnou umělou inteligencí jsou předčasné a odvádějí naši pozornost od problémů, které jsou až příliš reálné“.

Moje teze by šla shrnout do následujících bodů, v nichž se rozcházím s autory brožurky, a které na několika úrovních dále v textu rozepíšu:

Nelze vyloučit velmi pokročilou AI.
Pravděpodobnost jejího vzniku v následujících desítkách let je nezanedbatelná.
Takovéto systémy představují existenční riziko.
V současnosti se problému na celosvětové úrovni věnují jen stovky lidí, což je vzhledem k závažnosti problému velmi málo. Zvlášť, když se většina snaží přijít na technické řešení, ale potřeba bude i mezinárodní shoda a kooperace.

Předmluva o stavu debaty

Ještě než se pustím do věcných argumentů, nemůžu si odpustit pár komentářů k aktuálnímu stavu debaty ohledně rizik AI.

Vytváří se minimálně dva názorové tábory, jejichž příslušníci se často vymezují vůči sobě navzájem, přestože v ideálním světě by si měli právě oni nejvíce rozumět a spíš se podporovat. Snadno lze spekulovat, že za tím stojí obavy z konkurence o prostředky a pozornost. Ale ať už to je jakkoliv, tak rozdíly jsou jen v různých neempirických předpokladech, z čehož pak obě skupiny vnímají jak jsou různá rizika pravděpodobná.

Buďme epistemicky skromní, protože nikdo v současnosti neví, jak přesně se AI bude dále vyvíjet. Nevíme, jak je těžké vytvořit systém s dlouhodobým plánováním; zda se systémy budou umět rekurzivně sebezlepšovat a jak dlouho; kolik budeme mít pokusů o vytvoření sladěného AGI nebo jestli nás první takový systém zbaví kontroly nad budoucností.

Postřeh z úplně jiného soudku ohledně dynamiky vývoje debaty o bezpečnosti AI je, že I. J. Good a jiní pionýři informatiky viděli existenční rizika, o kterých se bavíme dnes, už před více než 60 lety. Nicméně tehdejší systémy nebyly dost výkonné a řečeno jednoduše, prostě nefungovaly. Poté přišlo dlouhé období takzvaných „AI zim“, kdy výzkum pokračoval, ale bez velkých objevů nebo vzrušujících průlomů. Před zhruba dvaceti lety se situace začala měnit. Růst výkonu počítačů najednou umožnil dělat zajímavé věci, jako třeba rozpoznání lidské tváře na obrázku. A pár jednotlivců začíná bít na poplach. Eliezer Yudkowsky zakládá první organizaci s explicitním cílem pomoci vývoji bezpečné pokročilé umělé inteligence, MIRI. Před asi 10 lety se tématu začínají věnovat multidisciplinární vědci, jako je Max Tegmark z MIT a Nick Bostrom z Oxfordu. Oba na svých univerzitách zakládají instituty zabývající se existenčními riziky a téma se začíná pomalu dostávat do akademického prostředí.

Dalším důležitým milníkem je vydání knihy Jako člověk, jejíž autor Stuart Russell, profesor z Berkley, zastupuje široce uznávané a naprosto mainstreamové výzkumníky strojového učení, kteří začínají varovat před velkými riziky. Russell mimo jiné napsal nejvíce používanou učebnici o umělé inteligenci na světě.

Dnes vznikají deklarace, které uvádí: „Zmírnění rizika vyhynutí způsobeného AI by mělo být globální prioritou, na úrovni s ostatními riziky na úrovni společnosti, jako jsou pandemie a jaderná válka.“. Podpořily je vedoucí osobnosti ve výzkumu umělé inteligence, včetně předních výzkumníků a ředitelů výzkumných laboratoří jako Demis Hassabis z DeepMind, Dario Amodei z Anthropic a Ilya Sutskever z OpenAI. Mezi signatáři jsou také Geoffrey Hinton a Yoshua Bengio, oba jsou laureáti Turingovy ceny, ocenění často považovaného za ekvivalent Nobelovy ceny v oboru informatiky, kteří jsou také nejcitovanějšími výzkumníky v oblasti strojového učení. Podepsal je i výše zmíněný Russell. Prominentní filozofy, kteří výzvu podepsali, zastupují například David Chalmers a Daniel Dennett, pod výzvou se najdou i biologové, odborníci na mezinárodní vztahy či nukleární bezpečnost.

Od pár jednotlivců jsme se dostali do doby, kdy před existenčními riziky varují naprosté špičky oboru. Grantové agentury vypisují grantové výzvy a firmy jako OpenAI vydávají zprávy o tom, že do výzkumu sladění mocných AI systémů investují 20 % výpočetního výkonu, což je v přepočtu zhruba hodně peněz.

Co si z toho odnést?

Eliezer Yudkowsky na jedné straně křičí, že nás všechny AI skoro jistě zabije. Autoři brožurky říkají, že tyto starosti jsou bláhové a odvádějí pozornost.

Nabízím následující analogii (která kulhá, jako každá analogie…): představte si, že by ředitelé vývoje vakcín Pfizeru a Moderny společně s nejcitovanějšími vědci v epidemiologii, virologii a vakcinologii podepsali prohlášení typu: „Je 10% šance, že vakcíny způsobí dramatický evoluční tlak na COVID-19 ve směru zvyšování nakažlivosti a smrtnosti.“ Jak moc by takové prohlášení zkomplikovalo diskuzi o nasazení plošného očkování a o kolik větší tlak na další vývoj a mitigaci těchto rizikových aspektů by byl adekvátní? Nebo jiný příklad: jste ve dvacátém patře mrakodrapu a chcete nastoupit do výtahu, ulehčit si námahu chůze po schodech a ušetřit čas. Jenomže u výtahu je skupina lidí, inženýrů, vývojářů výtahů, statiků a kontrolorů. Část z nich tvrdí, že výtah je bezpečný, a část z nich, že může spadnout a všechny v něm zabít. Opět, nastoupili byste do takového výtahu?

Chci tím říct, že vzhledem k závažnosti existenčních rizik, která nezanedbatelná část předních a relevantních odborníků vznáší, dává smysl je vyslyšet i za absence širšího konsenzu. Zvlášť když dynamika diskurzu ukazuje, že relevantních lidí, kteří mají tyto obavy, přibývá. Rozuzlení situace přijde až v budoucnosti, nyní mají obě strany jen kvalifikované odhady, intuice a úvahy.

Reakce na vybrané části brožurky

Nerozumí, ale fungují

Na straně 12 se píše „vykazují inteligentní chování, aniž by ale měly vlastnosti, které si spojujeme s inteligencí lidskou. (… ) Neznají významy slov a vět, doopravdy nám nerozumí, nevědí, co nám odpovídají (vlastně ani neví, že odpovídají)“, a dále se mluví o Searlově myšlenkovém experimentu.

Moje reakce je, že souhlasím, že jazykový model GPT-4 nepředstavuje existenciální hrozbu, ale ne proto, že mu chybí porozumění, vědomí nebo záměrnost. Pěkně se tématu věnuje například studie Model evaluation for extreme risks od DeepMind, v níž se o rizicích přemýšlí primárně jako o množinách schopností modelů, ne o vnitřních stavech jako vědomí. GPT-4 tedy není z pohledu existenčních rizik problematický, protože není dostatečně dovedný v klíčových nebezpečných oblastech.

Nicméně je potřeba říct, že s tvrzeními z příručky lze velmi jednoduše nesouhlasit. GPT-4 na mnoha úrovních chápe svět, rozumí slovům i konceptům a umí uvažovat. Lze to říct i za použití termínů, které nemáme silně spojeny s lidskou formou inteligence, ale které považuji do značné míry za zaměnitelné. Například, že velké jazykové modely jako GPT-4 mají dobrou vnitřní reprezentaci světa, umí generalizovat řešení problému z jednotek příkladů, umí se zorientovat ve složitých problémech a abstrahovat důležité aspekty. Pokud je necháte nad problémem přemýšlet postupně, tak poskytují lepší odpovědi, než když jsou nuceny reagovat okamžitě. Zároveň jsou dotrénovány tak, aby měly informaci, že jsou prediktivní umělou inteligencí. V dalších tréninkových bězích, až budou přímo trénované na datech, která o nich budou obsahovat články a tisíce vědeckých studií, tak budou mít mnohem přesnější reprezentaci sebe sama v kontextu světa.

Tak jako čínský pokoj pro vnějšího pozorovatele umí čínsky, tak GPT-4 pro vnějšího pozorovatele očividně chápe spoustu věcí. A to je to důležité.

Záměrnost, respektive snaha dosáhnout cíle, je vlastností všech systémů založených na zpětnovazebném učení (RL – Reinforcement Learning). Nicméně je pravda, že u GPT-4 je to hodně potlačeno tím, že má velmi krátkodobý primární cíl„generuj pravděpodobný token textu“ a RL z lidské zpětné vazby (RLHF - Reinforcement Learning from Human Feedback) bylo použito jen na dotrénovaní něčeho jako „chovej se jako příjemný, nekontroverzní chatbot“.

Nicméně to, čemu lze efektivně říkat záměrnost, lze koncepčně snadno přidat. Stačí GPT-4 zapojit do smyčky a říct mu, že si má nějaký cíl vymyslet, pokusit se ho splnit a dát mu přístup k příkazovému řádku.

Lidé to už zkouší a zadávají systémům jako ChaosGPT úkoly typu „znič svět“. To, že tu všichni ještě jsme, je podle mne nejlepší empirický důkaz toho, že GPT-4 není dostatečně šikovný v kritických oblastech, aby svět zničil. Ale ne kvůli nedostatku záměrnosti. Koneckonců šlo by dlouze filozofovat o tom, jak moc velkou záměrnost mají lidé nebo jestli existuje svobodná vůle.

Konkrétně, AI systémy nás už roky poráží ve hrách, jako jsou šachy nebo go. Nemůžeme si být jistí tím, že se nemůžou naučit námi manipulovat, sebezdokonalovat se, provádět kybernetické útoky nebo například vyvíjet pokročilé biologické patogeny.

Třeba AlphaGo nerozumí hře go podobně jako lidé, ale to je do značné míry irelevantní. Porazí jakéhokoliv člověka i skupinu lidí.

Abych to shrnul, argumentovat čínským pokojem může vést k nebezpečnému sebeuklidnění. Zdůrazňováním nedostatku porozumění nebo záměrnosti u umělé inteligence riskujeme, že budeme ignorovat skutečný problém – potenciál škod, které tyto systémy mohou způsobit bez ohledu na to, jaké jsou vnitřní kvalitativní stavy. Filozofické debaty o vědomí a porozumění AI jsou sice fascinující, ale neměly by být ztotožňovány s bezpečností AGI systémů a neměly by nás uklidňovat úvahy o tom, že vnitřní porozumění AI systémů není stejného typu, jako mají lidé. Koneckonců GPT-4 nemusí “rozumět” pojmu dezinformace, aby je mohl produkovat, což je něco, s čím i autoři brožurky souhlasí.

Proč by nám pokročilé AI systémy chtěly ublížit?

Pokud budeme předpokládat, že AI systémy jsou plně sladěné, tedy dělají to, co jim řekneme takovým způsobem, jakým chceme, tak situace je jednoduchá. Najdou se lidé, kteří takovému AI systému řeknou „znič svět“, „vyprodukuj biologickou zbraň s nakažlivostí spalniček a smrtností prionové choroby“ nebo něco podobného. Už dnes lidé přesně takové prompty zkouší zadat agentním verzím GPT, jako je například AutoGPT a ChaosGPT.

Pokud budu jen o trochu méně cynický, tak se najdou lidé, kteří takovému systému zadají úkol typu: „vydělej mi bez ohledu na ostatní co nejvíce peněz/moci nebo jiného osobního benefitu“. Takovýto prompt nemusí zadávat nutně jednotlivec, ale může ho zadat dostatečně velká korporace, která bude mít prostředky vycvičit si vlastní, ničím neomezovaný systém. Tak jako ExxonMobil věděl o změně klimatu jako jedna z prvních institucí na světě, ale rozhodl se s tím nic nedělat a dále vydělávat peníze. Nebo firmy produkující freony a jiné látky ničící ozonovou vrstvu, které v tom vesele pokračovaly, dokud nedošlo k Montrealské mezinárodní dohodě označované jako „perhaps the single most successful international agreement to date“. Je podivuhodné, že žijeme ve světě, kde dohodnout se na zastavení destrukce ozonové vrstvy je oslavováno jako mimořádný úspěch. Na jakékoliv rozumné planetě s obyvateli, kteří mají ambice na ní dlouhodobě přežít, by to měla být naprostá samozřejmost.

Takže pokud subjektivní benefit pro sobecké jedince a organizace z bezskrupulózního užití pokročilých AI bude dostatečně velký, rozhodně z nich zkusí vyždímat maximum na úkor ostatních.

Další důležitou kategorií jsou pokročilé AI systémy, kterým se snažíme zadávat vesměs prospěšné cíle, ale které sladěné nejsou. Typický příklad nesladěného systému je GPT-4 a Claude. I přes velkou snahu jejich tvůrců vštípit těmto chatbotům “dobré mravy” se jim to nedaří. OpenAI strávilo před veřejným vydáním měsíce času aplikováním různých bezpečnostních technik, aby uživatelům Twitteru trvalo desítky minut, než našli první takzvaný jailbreak. Po 8 měsících opravování nedostatků v zabezpečení na základě zpětné vazby od milionů uživatelů je situace taková, že jailbreaky stále existují. Výzkumníci začínají objevovat různé kategorie přístupů, kterými můžou bezpečnostní zábrany obejít.

Jak se nám AI může vymknout z rukou?

Odpověď je, že neumíme dobře zadávat cíle, a i kdybychom cíle zadávat uměli, tak nemůžeme zaručit, že vnitřní reprezentace těchto cílů uvnitř AI systému odpovídá našemu zadání.

Lidstvo tento koncept chápe velmi dobře. Tento princip je obsaženo ve všech příbězích o džinech v láhvi a zlatých rybičkách, které plní přání. Mocná AI bude právě takovou rybičkou, ale na steroidech. Splní to, co jí řekneme, ale je velká šance, že způsobem, který se nám nebude líbit. Je potřeba si uvědomit, že pokud velmi mocný systém je byť jen částečně nesladěný s lidskými zájmy, tak lidské zájmy prohrají.

Abstraktnější analogii lze najít ve vztahu evoluce a lidí. Evoluce chápana jako optimalizační proces k šíření genů vytvořila druh homo sapiens s mozkem a obecnou inteligencí. Na individuální úrovni se ale člověk může rozhodnout podstoupit sterilizaci, čímž jedná přímo v rozporu s původním optimalizačním procesem. Na celospolečenské úrovni děláme potenciálně katastrofické aktivity jako způsobování změny klimatu případně naskladňování tisíců atomových zbraní. AI systémy si také snadno můžou vytvořit nějakou heuristiku či vnitřní optimalizační mechanismus, který sice na první, druhý a možná i třetí pohled bude užitečný pro plnění námi zadaných cílů, ale hrozí, že se později ukáže, že je s nimi v přímém rozporu.

Nejméně sci-fi scénář nicméně je, že AI systémy budou fungovat dostatečně dobře, abychom jim dávali větší a větší zodpovědnost. V prvním kroku firmy, které zapojí AI do svého podnikání, budou dosahovat lepších výsledků levněji než firmy využívající pouze lidskou práci. Od určité úrovně schopností budou lidé AI systémům spíš překážet. Firmy, které se tím nenechají vyvést z míry, budou mít velkou konkurenční výhodu. Hrozí, že lidstvo bude vědomě a dobrovolně předávat čím dál větší kontrolu AI systémům od generování zábavného obsahu, přes lékařské rady, až po kontrolu korporací či vládnutí. Poněvadž ale neumíme zaručit úplné sladění cílů AI systému s vůlí zadavatele, v dlouhodobém měřítku tyto systémy téměř jistě budou dělat věci, které se nám jako lidstvu nebudou líbit. Tak jako současný ekonomicko-politický systém chtě nechtě ničí planetu, podobně můžou AI systémy jednat v rozporu s lidskými hodnotami. A pokud není nikdo, kdo by rozuměl tomu, co přesně AI systémy dělají, protože bude v některých oblastech schopnější než lidi, kdo si dovolí vypnout systémy, které budou doslova řídit planetu?

Co přesně hrozí?

Tady nemá cenu ani nelze být konkrétní. Platí abstraktní princip, že chytřejší entity mají výhodu nad méně chytrými, a pokud rozdíl mezi schopnostmi lidí a AI bude příliš velký, nebudeme schopni se ubránit a možná ani pochopit, co se s námi a se světem kolem nás děje.

Pokud budeme cílům AI v nějaké formě překážet, tak prostě podnikne kroky, abychom jí nepřekáželi. V nejextrémnějším případě nás vyhladí, v méně extrémních nás zbaví kontroly nad budoucností a nad světem. AI bude chtít svoje cíle splnit a k tomu bude potřebovat různé zdroje. V lidském světě jsou zdroji zejména peníze a moc.

Stejně tak, jako se lidé neohlížejí na mraveniště, když chtějí postavit dálnici, tak AI se nemusí ohlížet na lidi. Ne protože by byla zlá a lidi neměla ráda, ale protože může mít jen nesladěné cíle. Ani nám nejbližší živočišné druhy typu bonobů a šimpanzů nemají prakticky žádnou agendu ve světě, protože jim ji jako lidstvo nepřenecháváme. Jejich existence je lidmi dovolena, ale pokud by příliš překáželi, snadno je všechny zahubíme, v lepším případě jen necháme přežívat v ZOO. Tím ale nechci říct, že lidstvo nutně čeká jedna z těchto alternativ.

Abychom se nedivili, jak rychle to přijde

Na straně 12 je napsáno: „zatím se ale k obecné umělé inteligenci ani zdaleka neblížíme“, a pak na straně 13 „představíme několik aktuálních problémů“ v kontextu toho, že ty existenční nejsou aktuální.

Koncept aktuálnosti si zaslouží diskuzi sám o sobě. Poražení Garryho Kasparova v roce 1997 v šachách bylo predikovatelné. Síla šachových programů se lineárně zvyšovala v čase a poražení top lidských hráčů bylo do konce tisíciletí takřka nevyhnutelné (alespoň pro část lidí, kteří nemají romantizované představy o schopnostech lidského mozku). Exponenciální růst výkonu počítačů sice narážel na exponenciální stavový prostor hry, ale i tak se šachové programy postupně zlepšovaly. Zejména za podpory lepších algoritmů a velmistry nadesignovaných heuristik.

Dnes žijeme v době, kdy se v oblasti umělé inteligence dějí velmi divoké věci. Exponenciálních trendů lze pozorovat několik. Navzájem se podporují a přispívají k tomu, že modely jsou čím dál tím schopnější.

Výpočetní výkon dosažitelný za dolar se zdvojnásobuje každé 2,5 roku.

Každé 2 roky jsou velké instituce ochotny zaplatit za trénink desetinásobnou částku.

Dochází ke zlepšování algoritmů (umožňují trénovat na větších datech, zlevnit/zrychlit trénink/běh…). Podle této studie na příkladu klasifikace obrázků se pro dosažení stejné přesnosti výsledného modelu snížil potřebný výpočetní výkon pro trénink mezi roky 2012 a 2021 sto tisíckrát. Jinými slovy, potřebný výpočetní výkon klesal o polovinu každých 9 měsíců. Množství potřebných dat klesalo na polovinu každé dva roky. Lze očekávat, že podobný trend bude do značné míry pokračovat i v jiných odvětvích strojového učení.

Se zvýšeným zájmem se zvyšuje počet lidí, kteří na zlepšování schopností modelů pracují. Například počet publikací zabývajících se machine learningem vzrostl z jednotek tisíc na přelomu tisíciletí na více než sto tisíc v roce 2022 (alespoň podle analytik app.dimensions.ai).

Pocit bezpečí vyžaduje velmi silné přesvědčení, že nenastane dostatečně velký průlom a zároveň, že potenciálně velmi nebezpečné systémy jsou tak daleko, že ani současný exponenciální kvap na mnoha frontách nás nemůže ničím překvapit. Musím podotknout, že to mi do značné míry připomíná prohlášení typu: „Není důvod k obavám. Jsme připraveni“, jak zdůraznil Babiš po prvních potvrzených nakažených C-19 na začátku března 2020.

Exponenciální růst výkonu sám o sobě nestačil na hru go. Právě proto prohra Lee Sedola se systémem AlphaGo v roce 2016 přišla naprosto nečekaně. Sedol je jeden z nejúspěšnější go hráčů v historii a prohrál 4:1. Nebylo jasné kolik algoritmických a konceptuálních průlomů bude potřeba, ale odhady říkaly, že se to nestane desítky let. Na což DeepMind vytvořil systém s hlubokou neuronovou sítí, který předčil lidskou intuici, kreativitu a přesnost při hraní go.

„It is difficult to make predictions, especially about the future,“ různí autoři.

Predikovat velké průlomy ve vědě jde těžko. Stejně těžko se predikuje, že žádný průlom nenastane. V článku jsem už zmiňoval příklad se hrou go. Úsměvná je i prohlášení Wilbura Wrighta o tom, že lidé nebudou létat nejméně tisíc let. Za dva roky se svým bratrem sestrojil první úspěšný prototyp letadla.

Další, kanonický příklad, je příběh Leo Szilarda, maďarského fyzika, který stál u zrodu jaderné energetiky a jaderné bomby. Základní teoretické principy vypracovával doslova ve stejných dnech a týdnech, kdy lord Ernest Rutherford, reprezentant starší generace usedlejších, ale respektovaných fyziků, prohlašoval, že zabývat se zkrocením jaderné energie je nerealistická bláhovost. Stejný sentiment měl v té době i všem známý Albert Einstein, než ho během pár let vědecký pokrok přesvědčil, že je akutní hrozba, že by nacistické Německo mohlo vyvinout jadernou bombu.

Existenční riziko pramenící z AGI sice není z nějakého úhlu pohledu aktuální, protože na této úrovni pokročilosti AI ještě nejsme. Pokud však slovo aktuální používáme méně striktně, pak platí, že je pochopitelně rozumné připravovat se i na problémy, které tady ještě nejsou, ale časem je lze očekávat.

Tvrzení, že se k AGI neblížíme, jenázor autorů brožurky, který sice mají podložený svými úvahami, ale víc než doměnka to není. Legitimních důvodů, proč si myslet, že se k AGI blížíme, je mnoho, a nelze je jednoduše smést ze stolu.

Průzkum mezi 738 publikujícími experty na strojové učení dává 5% až 10% mediánovou pravděpodobnost existenční katastrofy. V jiném průzkumu si 57 % výzkumníků v odvětví zpracování přirozeného jazyka myslí, že nedávné pokroky vedou k AGI.

Metaculus, platforma a komunita lidí, které baví prognostika, mediánově očekává příchod AGI v roce 2032. Platformy tohoto typu produkují často lepší predikce než úzce zaměření odborníci.

Závěr

Tvorba obrázků, vysvětlení textových i obrázkových vtipů, úlohy z programování nebo z celosvětového kola matematické olympiády, kreativita a mnoho dalšího jsou typy úkolů, které v nedávné době byly do značné míry pokořeny AI systémy. Tyto schopnosti navíc přichází překvapivě rychle. Různých metrik a benchmarků je dosahováno dříve, než předpovídají nejen odborníci, ale i expertní prognostici.

U jazykových modelů je většina průlomů do značné míry emergentními vlastnostmi, které se objevily se zvětšením modelů, s větším množstvím tréninkových dat a s využitím většího výpočetního výkonu pro trénink. Modely jsou schopny si potřebné vzorce najít v datech samy a nepotřebují lingvisty, umělce nebo programátory, aby jim pomáhali s internalizací různých konceptů. Na chápání programování, vysvětlování humoru nebo rady, jak dobře vystupovat na pohovoru do práce, není potřeba vytvářet specializované nástroje a architektury, ale vše to zvládne stejná architektura.

Jinými slovy, pokrok jde dopředu nečekaně rychle. Nemůžeme si být jisti, že se tento pokrok zastaví předtím, než budeme schopni vytvořit skutečně nebezpečné systémy. Zároveň víme, že aktuální přístupy k vývoji AI robustně nevedou k tomu, co lze označit za sladěnou umělou inteligenci. Přinejlepším můžeme aplikovat různé techniky posouvající laťku nebezpečnosti snad dostatečně vysoko. Přinejhorším nás tyto záplaty ukolébají, a nebudeme si dávat pozor, až dostatečně pokročilou AI, která všechny námi nastavené bariéry překoná, vyvineme.

Kvůli nejistotě ohledně budoucího vývoje je potřeba k problému přistupovat racionálně. Tak, jako je rozumné si pojistit auto pro případ nehody, bychom si měli jako lidstvo “pojistit” budoucnost tím, že na problému existenčních rizik budeme adekvátně pracovat. Podle odhadů se problémům existenčních rizik aktuálně věnují řádově stovky lidí, což je v porovnání s jinými vážnými problémy naprosto zanedbatelné číslo. Pražský dopravní podnik má 11 000 zaměstnanců. Jakkoli je veřejná doprava záslužná věc, přijde mi děsivé, že na jejím provozu pracuje 30× víc lidí než na problému, který může způsobit zkázu lidstva.

Neříkám, že máme panikařit a bourat datacentra. Ale pokud lidstvo chce jako živočišný druh přežít, musí k rizikům přistupovat racionálně. Spousta relevantních lidí si myslí, že v dohledné době vytvoříme entity chytřejší, než jsme my sami, a že bude problém zajistit, aby lidstvu tyto systémy nenávratně neublížily. Nemarginalizujme tento problém, ale vyviňme dostatek úsilí, abychom pravděpodobnost problému snížili na přijatelnou úroveň.

Michal Keda

zpět