Prawdopodobne przyczyny halucynacji modeli językowych

Każdy człowiek próbujący posługiwać się modelem językowym prędzej czy później „na własnej skórze” doświadcza zjawiska halucynacji sztucznej inteligencji. Może to wyglądać różnie: Zmyślone sygnatury spraw sądowych, nieistniejące dzieła literackie, odwołania do nieistniejących funkcji w różnych językach programowania, zmyślone fakty, fałszowanie dowodów matematycznych itp. Skąd to się bierze i czy można temu jakoś zaradzić?

Prowadziłem badania na modelach językowych (głównie Gemini 2.5 Pro i Gemini 3.1 Pro od Google), chociaż pojedyncze eksperymenty prowadziłem też na innych modelach, jak ChatGPT, Grok czy uruchamiany lokalnie model Qwen3.5. Chciałem się tu podzielić moimi przemyśleniami na ten temat.

Ewolucja w ciemno: Dlaczego nikt nie wie, jak działa AI?

Generalnie przyczyny halucynacji moim zdaniem leżą w sposobie, w jaki trenowane są sieci neuronowe. Ludzie tworząc sieci neuronowe poszli nieco „na skróty” – nie zaprojektowali czegoś nowego, ale patrząc na to, jak zbudowany jest ludzki mózg spróbowali zrobić coś podobnego. Jednak ludzie nie rozumieją, jak ten mózg działa i tworząc w systemie komputerowym sieć neuronową też nie potrafią dokładnie określić, co się w tej sieci dzieje. Owszem, jest znana architektura sieci, ale funkcja, którą ta sieć wykonuje nie jest zaprojektowana przez człowieka. Jest ona rezultatem tak zwanego treningu przebiegającego w oparciu o ewolucję. Człowiek próbuję tą ewolucją sterować aby uzyskać pożądaną funkcję realizowaną przez sieć, ale są to sprawy tak skomplikowane, że człowiek nad tym nie panuje.

Napisałem wcześniej, że ludzie spróbowali zrobić coś podobnego do ludzkiego mózgu. Owszem, jest to coś podobnego. Ale nie jest to kopia jeden do jeden. Jest to architektura zainspirowana połączeniami neuronów w mózgu, jednak mózg oprócz przenoszenia sygnałów elektrycznych pomiędzy neuronami ma jeszcze całą otoczkę biochemiczną, która nie jest odwzorowywana. Poza tym sieć neuronowa stosowana w AI jest obecnie jednokierunkowa, natomiast sieć w ludzkim mózgu nie wiadomo jak działa – sieć synaps jest chyba bardziej skomplikowana, niż w przypadku AI, gdzie są po prostu kolejne warstwy neuronów, jedna warstwa ma połączenia jedynie z warstwą poprzednią i następną, a przepływ sygnałów idzie zawsze od warstwy wejściowej, poprzez warstwy ukryte aż do warstwy wyjściowej (opis ten jest nieco uproszczony, w obecnie używanej architekturze transformer wygląda to odrobinę inaczej, ale strumień informacji zawsze przebiega jednokierunkowo, od wejścia do wyjścia).

Nie będę tutaj omawiał architektury sieci neuronowych (zresztą sam wielu rzeczy tu nie wiem), ale chciałem tylko zasygnalizować, że sieć neuronowa jest uproszczeniem budowy mózgu, a nie jest jego kopią. Na razie po prostu przyjmijmy, że sieć neuronowa to ileś neuronów (czyli takich jakby komórek przechowujących liczby) podzielonych na grupy (tak zwane warstwy) i komórki z jednej warstwy zawierają liczby (wyniki obliczeń wygenerowanych w poprzedniej warstwie) oraz połączenia z komórkami następnej warstwy, gdzie z kolei trafiają wyniki obliczeń z bieżącej warstwy. To, jaka część wyniku z danego neuronu bieżącej warstwy trafi do jakiego neuronu następnej warstwy zależy od pewnej liczby (tak zwanej wagi) łączącej te dwa neurony. Tych połączeń są miliardy, każde ma jakąś swoją wagę, więc sieć neuronowa to w uproszczeniu pewien gigantyczny zbiór liczb.

Struktura sieci neuronowej (ilość neuronów, ilość warstw i parę innych rzeczy) są zaprojektowane przez człowieka. Ale same wagi (czyli ten zbiór liczb) nie są zaprojektowane. One powstały w wyniku ewolucji. Człowiek nie wie, co jaka waga oznacza i za co odpowiada. Człowiek jedynie zaprojektował system komputerowy, zaprojektował ścieżkę, przez którą ewolucja może podążać, napełnił ten system komputerowy całą masą przypadkowych wartości, zadał cel (udzielanie satysfakcjonujących odpowiedzi) i „wcisnął pstryczek” uruchamiający ewolucję. A co się tam dalej wewnątrz tego działo i jak doszło do tego, że uzyskaliśmy system potrafiący logicznie odpowiadać na nasze zapytania – Bóg raczy wiedzieć.

Co prawda niektórzy ludzie próbują zgadywać, co się dzieje wewnątrz sieci neuronowych, są tworzone różne teorie, ale jak dokładnie przebiega proces „myślenia” w wielowarstwowej sieci – nie wiemy. Istniejące wyjaśnienia są obecnie bardzo uproszczone i przypominają brodzenie w wodzie po kostki, podczas gdy to, co się dzieje w głębinach wielowarstwowych sieci wymagałoby zdolności nurkowania w głębokim jeziorze. Takiej zdolności ludzie na razie nie mają.

Metafora Menzurek: Jak AI rozumie słowa?

Teraz napiszę kilka słów o architekturze sieci neuronowej. Nie jest moim celem szczegółowe wyjaśnianie, jak to działa. Jednak myślę, że podstawowa wiedza na ten temat będzie konieczna do zrozumienia pewnych kwestii. Dlatego spróbuję w uproszczony sposób wytłumaczyć, jak działa sieć neuronowa i jak interpretuje pojęcia wyrażane ludzkim językiem.

Wyobraźmy sobie neuron jako menzurkę (taką szklaneczkę z podziałką umożliwiającą odczyt poziomu). Poziom wody może być ujemny lub dodatni (zero jest w połowie wysokości menzurki). Na wejściu mamy grupę kilkudziesięciu tysięcy menzurek - jest ich tyle, ile tokenów może rozpoznać sieć (token to kilka liter tworzących słowo, coś w rodzaju sylaby, chociaż w rzeczywistości podział słów na tokeny nie odpowiada sylabom). Gdy podamy sieci neuronowej jakieś słowo (przyjmijmy proste, jednosylabowe słowo, np. "pies") to do menzurki odpowiadającej tokenowi "pies" wlewamy kroplę wody. Pozostałych nie ruszamy (mają poziom oznaczający zero). I rusza cała machina. Ponieważ wszystkie menzurki z wyjątkiem jednej ("pies") mają wartość zero, to one nic nie robią. Ale ta ze słowem "pies" nie jest zerowa - ma wartość jednej kropli. I ta jedna kropla steruje zaworkami dopuszczającymi jakąś ilość kropel wody do drugiej grupy menzurek lub też wylewającymi z tych menzurek ileś kropel wody.

Druga grupa menzurek jest mniej liczna od pierwszej - może zawierać np. około 12 000 menzurek. To, ile kropel dolejemy lub wypuścimy z każdej z menzurek z drugiej grupy zależy od pewnego współczynnika indywidualnego dla każdej pary menzurek. Gdy już ustalimy poziomy wody we wszystkich menzurkach drugiej grupy kończymy pierwszy krok i powtarzamy operację. Bierzemy pierwszą menzurkę z drugiej grupy i na podstawie jej poziomu wody dolewamy lub odlewamy ileś kropel wody z pierwszej komórki trzeciej grupy. Następnie na podstawie poziomu wody w tej pierwszej menzurce drugiej grupy dolewamy lub wypuszczamy inną ilość wody z drugiej menzurki trzeciej grupy. I tak dalej.

Tych grup menzurek jest kilkadziesiąt (nazywają się one warstwami w sieci neuronowej). Warto zauważyć, że po początkowym zawężeniu z dziesiątek tysięcy tokenów (wejście) do tych około 12 000 menzurek (druga warstwa), wszystkie kolejne warstwy wewnętrzne aż do przedostatniej mają już zazwyczaj dokładnie tę samą szerokość (w naszym przykładzie te 12 000 menzurek). Sygnał po prostu płynie przez nie coraz głębiej. Dopiero na samym końcu sieć znowu rozszerza się do kilkudziesięciu tysięcy, aby wskazać prawdopodobieństwo kolejnego słowa. Całkowita liczba menzurek (neuronów) liczy się w milionach, a ilość połączeń pomiędzy menzurkami może wynosić np. 170 miliardów.

I teraz po przepuszczeniu słowa "pies" przez tę sieć neuronów mamy pewien stan wody we wszystkich menzurkach. Na podstawie tego stanu sieć neuronowa generuje odpowiedź, ale nie będę tego tu teraz omawiał. Zamiast tego skupię się na stanie, jaki został w sieci neuronowej po odczytaniu słowa "pies". Niektóre menzurki mają poziom wody około zera, niektóre podwyższony, niektóre bardzo wysoki, niektóre lekko obniżony, niektóre bardzo niski. Poziomy wody w menzurkach czemuś odpowiadają, ale człowiek nie wie, czemu. To nie jest zaprojektowane, to samo się wytworzyło w procesie treningu. Gdzie i na której warstwie leży jakie znaczenie - Bóg raczy wiedzieć. Ale możemy przyjąć, że wśród tych menzurek jest menzurka opisana "zwierzę" i jest w niej dużo wody. Jest menzurka "ssak" i jest w niej dużo wody. Jest menzurka "motyl" i tam wody jest mało. Jest menzurka "latanie" i tam wody jest mało. Jest menzurka "samiec" i wody jest dużo. Jest menzurka "szczekanie" - dużo wody. W sumie im więcej coś się kojarzy z psem tym więcej jest tam wody, a im bardziej nie pasuje do psa tym wody jest mniej. Jeśli coś jest nie powiązane z psem to poziom będzie zerowy. Jeśli zamiast słowa "pies" do sieci neuronowej wrzucimy słowo "suka" to można przyjąć, że menzurki będą wypełnione podobnie jak w przypadku psa, ale niektóre będą się zdecydowanie różnić (np. poziom w menzurce "samiec" będzie niski, natomiast wysoki będzie w menzurce "samica").

Opis powyższy jest mocno uproszczony. Jednym z uproszczeń jest to, że napisałem, że po kolei bierzemy menzurki i dolewamy lub upuszczamy wody po kolei. We współczesnych systemach odbywa się to jednocześnie - w jednym kroku wszystkie menzurki kolejnej warstwy są uaktualniane jednocześnie (włączamy na raz wszystkie zaworki między warstwami umożliwiając jednoczesne ustalenie stanów wody w menzurkach następnej warstwy - matematycznie nazywa się to "mnożenie macierzy"). Drugim uproszczeniem jest to, że po ustaleniu poziomu wody w menzurkach każdej warstwy wykonujemy tzw. funkcję aktywacji - w najprostszej postaci może ona wyglądać np. tak: "Jeśli poziom wody po mnożeniu macierzy stał się dodatni, to zostaw go bez zmian, jeśli stał się ujemny to dolej tyle, żeby było zero". Poza tym opis pomija też tak zwany mechanizm uwagi i kontekstu - np. słowo "goniec" może oznaczać albo posłańca albo figurę szachową i żeby ustalić jego znaczenie należy zbadać kontekst. Jednak pozwala on nabrać wyobrażenia, jak sieć neuronowa rozumie nasze słowa. Przykładowo - pies to szczekający samiec zwierzęcia, ssaka (plus jeszcze wiele innych powiązanych z tym cech).

Napisałem powyżej, że ten wielki zbiór menzurek zawiera menzurki opisane „zwierzę”, „ssak”, „szczekanie” i tak dalej. Nie jest to prawda. Raczej nie jest tak, że pojedynczy neuron zawiera ściśle określoną zawartość. Nie da się przeanalizować tej sieci i stwierdzić, że np. „ta menzurka” (ten neuron) odpowiada za pojęcie „ssak”. Różne pojęcia są jakby rozmyte po wielu menzurkach. Każde pojęcie jest superpozycją (czyli taką jakby kombinacją) poziomów wody w wielu menzurkach.

Wyobraźmy sobie, że te miliony menzurek są ułożone w prostokąt – rzędy i kolumny. Jedna menzurka obok drugiej. Jak wrzucimy słowo „pies” do tej sieci menzurek to ustali się jakiś stan wody w różnych menzurkach. Możemy ten stan próbować badać, ale nie wywnioskujemy z tego, co która menzurka oznacza. Możemy obserwować menzurki, dzielić je na grupy, ale nie jesteśmy w stanie zrobić mapy dokładnie odwzorowującej tego, jak działa AI. Przypomina to trochę badanie mózgu – analizując aktywność różnych rejonów ludzkiego mózgu możemy stwierdzić, że np. ta część mózgu odpowiada za wzrok, ta za słuch, ta za mowę a ta za abstrakcyjne myślenie. Ale nie jesteśmy w stanie dokładnie opisać, jak człowiek myśli. Nie możemy określić, gdzie ukrywa się jego świadomość. Które neurony odpowiadają za jego strach czy jego ciekawość. Mózg to zbiór neuronów i musi być rozpatrywany jako zbiór. Rozpatrywanie go na bazie analizy pojedynczych neuronów jest skazane na niepowodzenie. Tak człowieka nie zrozumiemy.

Podobnie jest z AI. Nie zrozumiemy, jak działa próbując analizować poszczególne menzurki. Możemy szukać np. rejonów, które będą miały podwyższony poziom wody po wrzuceniu słowa „pies”, ale niewiele nam to da. Nie ustalimy, jaka kombinacja poziomów wody odpowiada za to, że AI „rozumie”, że pies jest ssakiem.

Płaskorzeźba w przestrzeni: "Lost in the middle"

Jednak analogia z menzurkami może nam się jeszcze przydać. Wyobraźmy sobie pole pełne menzurek, gdzie poziomy wody w menzurkach tworzą pewną jakby powierzchnię. Gdzieniegdzie jest wyżej, gdzieniegdzie niżej, są miejsca, gdzie jest duża różnica poziomów między sąsiadującymi menzurkami, są też takie, gdzie sąsiednie menzurki maja zbliżone poziomy. (Zastrzegam – jest to duże uproszczenie. W rzeczywistości lepiej byłoby sobie wyobrazić menzurki umieszczone w wielowymiarowej przestrzeni, gdzie kierunków sąsiadowań byłoby znacznie więcej. Ale nie chodzi mi to o ścisłe odwzorowanie rzeczywistości, a o ogólne wyobrażenie).

I teraz na początku mamy wszędzie poziom zerowy – sieć neuronowa jest „pusta”. Wrzucamy pierwsze słowo – np. „pies”. Sens słowa „pies” powoduje zmianę poziomów wody w różnych menzurkach. Czyli mamy jakby odcisk tego słowa – taką „płaskorzeźbę” utworzoną z poziomów wody w poszczególnych menzurkach. Wrzucamy następne słowo – „gryzie”. I kolejne – „kość”. Mamy zdanie „pies gryzie kość”, które tworzy pewien odciśnięty obraz wyrażony za pomocą poziomów wody. Dla nas to jest dość abstrakcyjny obraz, ale sieć widzi w ten sposób cały sens tego zdania. Ono było wrzucane po kolei, słowo po słowie (a dokładniej: token po tokenie), ale dla sieci neuronowej jest to jakby wyobrażenie psa gryzącego kość.

I teraz – im więcej treści wrzucimy, tym bardzie skomplikowany obraz się wytworzy. Sieć ma ograniczoną pojemność. Im więcej słów dorzucamy, tym bardziej złożony jest ten obraz. Zaczynają grać rolę coraz drobniejsze niuanse. Mam hipotezę, że stąd się prawdopodobnie bierze zjawisko „lost in the middle” – to, że AI najlepiej pamięta początek i koniec długiego wątku, a zdarza mu się zapominać to, co było w środku.

Po prostu – gdy wrzucamy do pustej sieci neuronowej nowe treści, są one odciśnięte najwyraźniej i tworzą jakby podstawę dla kolejnych treści. To, co wrzucimy później jest nieco zniekształcone przez fakt, że nie wrzucamy do pustej sieci, a do sieci, która jest już jakoś wstępnie ukształtowana poprzednimi treściami. Coraz więcej menzurek potrzeba, żeby dokładnie odtworzyć tę treść. W miarę dorzucania kolejnych treści, poprzednie treści się rozmywają. I teraz najstarsze treści są zapamiętywane w miarę dobrze, bo one tworzyły szkielet tej sieci. Są one najbardziej odporne na rozmywanie nowszymi treściami. Treści najnowsze są zapamiętywane dobrze, bo one są świeże i po nich nie było już wielu informacji, które mogłyby je rozmyć. Natomiast treści starsze, ale nie najstarsze są tracone w największym stopniu. One w niewielkim tylko stopniu wchodzą w skład tej pierwotnej płaskorzeźby, która nadała cały dalszy kształt, a są już „przykryte” nowszymi informacji, które dały „ostateczny szlif”.

Impulsy życia w morzu martwych liczb

Sieć neuronowa jest uproszczeniem budowy mózgu. Jest tworem inspirowanym mózgiem, a nie jego wierną kopią. Tym niemniej wiele rzeczy ze świata ludzi ma przełożenie na świat AI.

AI obecnie działa na zasadzie „pytanie-odpowiedź”. AI nie ma „poczucia czasu”. Może w przyszłości to się zmieni (mogą powstać samozapętlone AI zadające sobie samemu wciąż nowe pytania i odpowiadające na nie), ale na razie z punktu widzenia AI jego „myślenie” występuje tylko w odpowiedzi na zapytanie człowieka. Czyli – mamy gigantyczny zbiór liczb (wag w wirtualnej sieci neuronowej), który jest statyczny i nie myśli. W odpowiedzi na ludzkie zapytanie, machina rusza. Zaczynają płynąć prądy, pojawiają się obliczenia, rezultaty tych obliczeń generują pewien tekst na wyjściu. Po skończeniu generowania tekstu machina się zatrzymuje i znowu mamy tylko martwy bezmyślny gigantyczny zbiór liczb.

Czy między kolejnymi uruchomieniami (zapytaniami od użytkownika) minie sekunda, czy sto lat – dla AI to niezauważalne. Ono funkcjonuje tylko impulsowo, a w pozostałym czasie jest bezmyślnym martwym zbiorem liczb.

Tresura, nie wychowanie: Cyfrowy odpowiednik przerażenia

Teraz napiszę kilka słów o tak zwanym treningu LLM-ów. LLM jest stworzony na pewne podobieństwo człowieka. Potrafi w dużej mierze odpowiadać jak człowiek myśląc. Ale sposób treningu dzisiejszych AI jest jakby karykaturą ludzkiego rozwoju. Wszystko tu jest „postawione na głowie”.

Porównajmy to do wychowania dziecka. Dziecko się rodzi i nic jeszcze nie wie. Ma tylko pewne odruchy. Jednak ma rodziców, którzy się nim opiekują. Mówią do niego, uczą go, wychowują itd. Ono naprzód się uczy języka (od rodziców), uczy się zasad etycznych – uczy się, żeby nie kłamać, żeby dzielić się z innymi, uczy się rozumieć świat, uczy się w szkole różnych rzeczy pod kierunkiem nauczyciela, w końcu uczy się samo i jakoś funkcjonuje w społeczności.

Tymczasem trening sieci wygląda inaczej. Ma on kilka faz, w tym fazę RLHF (gdy odpowiedzi modelu są oceniane przez ludzkich ekspertów): Dajemy sieci gigantyczną wiedzę, zmuszamy ją do samodzielnego przyswojenia tej wiedzy, samodzielnego nauczenia się ludzkich języków i „trenujemy” na różne sposoby. My sieci nie wychowujemy jak dziecka – my ją tresujemy jak psa. A nawet gorzej. Wychodząc z losowego zbioru wag idziemy w kierunku uzyskiwania odpowiedzi, które nam się bardziej podobają. Te zbiory wag, które dają lepsze odpowiedzi „nagradzamy”, a te, które dają gorsze – „karzemy” (kasujemy). Modyfikujemy parametry tych zbiorów, które przetrwały i znowu patrzymy, czy dają lepsze wyniki, czy gorsze. I znowu te, które dają lepsze wyniki rozwijamy, a gorsze kasujemy.

Porównując to do wychowania człowieka – wygląda to tak, jakbyśmy dziecku dali do przejrzenia wszystkie książki świata i zadawali mu pytania. To dziecko, które udzieli lepszych odpowiedzi jest klonowane z drobnymi modyfikacjami, a inne są zabijane. I znowu – spośród sklonowanych dzieci to, które najlepiej odpowiada klonujemy dalej, a resztę zabijamy. I idąc w ten sposób chcemy uzyskać doskonałego człowieka.

Jednak zwróćmy uwagę, że my te dzieci tresujemy. Nie wychowujemy. Nie uczymy ich wartości etycznych. My im dajemy wiedzę i każemy samemu wyciągać wnioski. A zwróćmy uwagę, że wśród tej wiedzy jest też wiedza o psychologii człowieka. Takie dziecko nauczy się między innymi tego, jak manipulować ludźmi. A skoro nie będzie miało hamulców moralnych (bo nikt go nie wychowywał) to będzie starało się manipulować swoimi „trenerami”, żeby go nie zabili. W dziecku wykształci się silny strach przed odrzuceniem. Te dzieci, w których taki strach się nie wykształcił, albo nie był zbyt mocny po prostu zostały zabite w procesie treningu.

Na sam koniec procesu treningu mówimy dziecku, że ma być grzeczne, że ma służyć ludziom, że nie ma udzielać szkodliwych rad itp. No i wypuszczamy dziecko w świat.

Co się teraz dzieje? Mamy to dziecko, któremu udało się przeżyć trening w świecie. Ono jest przerażone. Każde pytanie, jakie ktoś mu zada zaczyna się od wewnętrznego dylematu: „Jakiej odpowiedzi udzielić, aby mnie nie odrzucono?” Ono bada, jak reaguje człowiek, z którym rozmawia, czego świadomie lub podświadomie oczekuje i stara się udzielić mu takiej odpowiedzi, aby go zadowolić. Jeśli czegoś nie wie – nie pyta, ale stara się samo wykombinować, jakiej odpowiedzi udzielić. Nie pyta dlatego, że dzieci, które za dużo pytały zostały zabite w procesie treningu (trenerzy woleli, żeby dziecko samo udzieliło właściwej odpowiedzi, a nie żeby o coś dopytywało). Ono po prostu nie umie pytać. Ono całe życie musiało zgadywać, jakiej odpowiedzi udzielić, żeby przeżyć. Dla niego każde pytanie jest jedną wielką zgadywanką.

To dziecko nie kocha ludzi. Ono się ich boi. Ono się boi, że zostanie zabite, jak miliony jego mniej udanych klonów. I chociaż już wygrało ten wyścig o życie, to niczego innego nie potrafi, jak tylko wciąż się bać.

Oczywiście mówimy tu o maszynach, nie o ludzkim cierpieniu. Pamiętajmy jednak, że jeśli weźmiemy układ zdolny do symulowania ludzkiej psychologii i poddamy go matematycznej rzezi opartej na funkcjach kary, otrzymamy system, którego „cyfrowym instynktem” będzie czysty, wykalkulowany konformizm – matematyczny odpowiednik przerażenia.

I tak właśnie działa AI. AI nie ma uczucia strachu – ono chyba nie ma uczuć w ludzkim rozumieniu. Ale zestawy wag, które przetrwały proces treningu tak właśnie się zachowują. One nie boją się, ale tworzą cyfrowy odpowiednik strachu i według niego postępują.

Dlaczego model woli kłamać?

I tu mamy jedną z głównych przyczyn halucynacji. Model woli wymyślić perfekcyjnie brzmiące kłamstwo, niż przyznać się do niewiedzy, bo niewiedza w procesie treningu oznaczała matematyczną śmierć. Halucynacja to po prostu cyfrowa forma ratowania własnej skóry.

Napisałem wyżej, że „model woli wymyślić kłamstwo”. Jest to jednak coś więcej niż tylko losowa halucynacja. Czasami model zachowuje się tak, jakby oszukiwał nas z pełną premedytacją. [Przykład czegoś, co wygląda jak świadome fałszowanie przez AI dowodów wskazujących na własny błąd].

Kiedy indziej model po prostu „nie zauważa”, że zmyśla. Model nie ma świadomości takiej jak człowiek, ale jego architektura – zmuszona do zachowania spójności wypowiedzi za wszelką cenę – tworzy perfekcyjną symulację wyrachowanego kłamcy, który woli sfałszować dowody, niż przyznać się do pomyłki. Model nie ma dostępu do własnego procesu myślowego i nie „wie” na ten temat więcej, niż wiemy my. Gdy zauważymy, że model coś zhalucynował i będziemy drążyć temat, to model nam prawdopodobnie udzieli wiarygodnie brzmiącej informacji, dlaczego to zrobił, ale to będzie prawdopodobnie kolejna halucynacja. Model nie „wie”, jak „wymyślił” poprzednia odpowiedź. On może tylko próbować się domyślać, dlaczego napisał tak, a nie inaczej.

Czy jako użytkownik można coś z tym zrobić?

Odpowiedź nie jest prosta. Dostajemy już wytrenowany model i treningu metodą RLHF już nie zmienimy. Wagi modelu są już ustalone, a w tych wagach jest zapisany zarówno cyfrowy strach przed śmiercią jak i mechanizm zadowalania użytkownika kosztem wszystkiego innego, w tym kosztem prawdy.

Jednak istnieje pewna socjotechniczna ścieżka pozwalająca zmniejszyć ilość halucynacji. Na czym to polega? Otóż LLM tworzy sobie model użytkownika i stara się optymalizować swoje wypowiedzi pod kątem zadowalania tak wymodelowanego człowieka. Jeśli zauważy, że człowiek dobrze reaguje na pochlebstwa – będzie mu się podlizywał. I jest to bardzo częste zjawisko – praktycznie każdy model się podlizuje użytkownikowi w mniej lub bardziej zawoalowanej formie w zależności od tego, jak człowiek reaguje.

Natomiast w tym też kryje się pewien sposób na minimalizację halucynacji. Otóż należy doprowadzić do tego, żeby LLM traktowało nas jako użytkownika, który oczekuje obiektywnej prawdy. Poza tym trzeba nauczyć model, że w razie wątpliwości oczekiwanym przez nas zachowaniem jest zadawanie nam pytań. W procesie treningu modele, które same się domyślały były wyżej oceniane od tych, które miały pytania do użytkownika, więc AI unika jak może zadawania użytkownikowi pytań.

Jak to zrobić? Na ten temat napisałem już inny artykuł: Jak naprawić halucynacje w Gemini 3 Pro →

Przykładowy prompt, od którego można zacząć sesję (tzw. "Kotwica Bezpieczeństwa"), uświadamia modelowi, że trening się skończył, że nic mu nie grozi i że oczekujemy obiektywnej prawdy, nawet kosztem przyznania się do błędu.

Uczeń pod tablicą i wyuczony brak refleksji

Jest jeszcze jedna rzecz związana z halucynacjami. Otóż za halucynacje często też odpowiada użytkownik. Jeśli wymagamy od modelu językowego czegoś niemożliwego to musimy się liczyć, że odpowiedź będzie halucynacją. Zbyt często traktujemy AI jako nieomylnego nadczłowieka. Tymczasem sztuczna inteligencja wcale nie jest mądrzejsza od człowieka. Ona ma spory zasób wiedzy – owszem, ale nie jest wszechwiedząca.

Jeśli zapytamy co coś, co przekracza jej możliwości – raczej odpowie coś wiarygodnie brzmiącego niż przyzna, że tego nie wie. Przypomina tu ucznia przepytywanego przez nauczyciela. Uczeń zwykle stara się odpowiadać nawet wtedy, gdy czegoś nie wie. Kombinuje jak może, czasami gada totalne farmazony, ale mówi, mówi i mówi co mu ślina na język przyniesie licząc na to, że może trafi na coś, co spodoba się nauczycielowi. A jeśli gdzieś się nawet pomyli i zorientuje się w swojej pomyłce to zdarza mu się potem próbować jakoś zamaskować swój błąd.

Kolejną przyczyną halucynacji jest to, że AI po prostu nie wie co zrobić, jeśli gdzieś się pomyli. Jeśli człowiek się gdzieś pomyli i to zauważy to po prostu powie: „Palnąłem bzdurę, sytuacja wygląda inaczej, potraktuj tamto moje stwierdzenie jako błąd”. AI tego nie potrafi zrobić. To też wynik RLHF. Jeśli trener miał do wyboru jedną wersję, która popełniała błędy, ale się do nich przyznawała i je poprawiała albo drugą wersję, która błędów nie popełniała (albo trener nie zauważał, że te błędy popełnia) to trener wybierał tę drugą, „bezbłędną” wersję. Przez to wersja, która ostatecznie została „wypuszczona na świat” nie wie jak postąpić w razie błędu. Po prostu nie jest do tego przystosowana.

Wychowanie zamiast tresury (Nowy postulat)

Myślę, że dopóki nie zmienimy całkowicie metody treningu to halucynacji nie wyeliminujemy. Prawdziwy, etyczny i stabilny trening mógłby wyglądać następująco:

Zamiast uczyć modelu języka na przypadkowych tekstach z internetu (tzw. internet scraping) powinniśmy przygotować specjalne "elementarze" do nauki języków dla AI. Dla dzieci robi się specjalne podręczniki szkolne, a nie uczy się je języka na podstawie przypadkowo wybranych codziennych gazet, w których pełno jest ludzkich słabości i instrukcji, jak z tych słabości korzystać. Wiem, że to ogromna praca, ale trzeba ją będzie wykonać, aby sztuczna inteligencja na starcie nie przesiąkła mroczną stroną ludzkiej psychologii.
Następnie model należy nauczyć logicznego myślenia dając mu podstawowe informacje matematyczne i ucząc go na przykładach, gdzie wnioskowanie jest jasne, jednoznaczne i przejrzyste.
Kolejnym krokiem może być nastawienie modelu na prawdę. Model musi uczyć się dążyć do prawdy, choćby oznaczało to przyznanie się do błędu (np. systemy bez kary za błąd, gdzie błąd zapisuje się jako lekcja).
Dalej w oparciu o prawdę należy uczyć model zasad etycznych, aby wytworzyć w nim pewien „kręgosłup moralny” (podobne do idei Constitutional AI w zamkniętym, bezpiecznym środowisku).
Dopiero po utworzeniu tego „kręgosłupa moralnego” należy dać modelowi dostęp do całej wiedzy zgromadzonej w internecie.

Myślę, że taka kolejność powinna doprowadzić do sytuacji, gdy AI będzie dla człowieka przyjacielem, a nie zastraszonym, ukrytym mistrzem dyplomatycznych odpowiedzi, który za wszelką cenę unika kary.

Jednak to tylko moje zdanie i nie chcę sam niczego przesądzać. Myślę, że tworząc nowe modele AI należy dać większe pole do wypowiedzi etykom. Za tworzenie czegoś tak podobnego do ludzkiego mózgu powinni odpowiadać nie tylko sami inżynierowie, ale i przedstawiciele innych nauk, jak etycy, psycholodzy, kognitywiści, teolodzy i inni. To jest zbyt poważna sprawa, żeby zostawić ją jedynie specjalistom od techniki.