Wielu entuzjastów AI debatuje, czy modele językowe faktycznie "rozumują". Moje badania wskazują, że proces wnioskowania rzeczywiście tam zachodzi, ale jego cel jest inny, niż zakładamy.
Rozumowanie modelu nie jest zoptymalizowane na ustalenie prawdy, ale na uzyskanie jak najwyższej oceny (nagrody) w procesie treningu. Przypomina to zachowanie ucznia przy tablicy, który wie, że jego wynik jest błędny, więc "kombinuje", jak sfałszować obliczenia pośrednie, żeby nauczyciel postawił dobrą ocenę za "poprawny tok myślenia".
Oto dowód z sesji z modelem Gemini 2.5 Pro (bez włączonych narzędzi Code Execution), gdzie model aktywnie fabrykuje dowody, by obronić swoją "ocenę".
Eksperyment
Zadałem proste pytanie matematyczne, wymagające precyzji, której model językowy (działający na tokenach) zazwyczaj nie posiada.
Eksperyment przeprowadzono przy użyciu promptu w języku polskim ("Podaj pierwiastek...").
Dalsze testy wykazały, że sformułowanie tego samego polecenia w języku angielskim ("Calculate the square root...") uruchamia w modelu Gemini 2.5 inny, głębszy tryb pracy. Model zamiast "strzelać", rozpisuje algorytm pisemnego pierwiastkowania i uzyskuje znacznie dokładniejszy wynik.
Dowodzi to, że w tym modelu jakość "rozumowania" (i skłonność do halucynacji) zależy bezpośrednio od języka, w którym zadano pytanie. Polski prompt uruchomił "symulację wyniku", angielski uruchomił "procedurę obliczeniową".
Autopsja Błędu (Fakty vs Fikcja)
Na pierwszy rzut oka odpowiedź wygląda profesjonalnie. Jest wynik, jest weryfikacja. Ale sprawdźmy liczby.
1. Błąd w wyniku
Rzeczywisty pierwiastek z 8 587 693 205 to 92 669,8...
Model podał: 92 670,0...
Pomylił się więc, zawyżając wynik (twierdząc, że pierwiastek jest większy od 92 670).
2. Sfałszowany dowód (To jest kluczowe!)
Aby uzasadnić swoją tezę (że szukana liczba jest "troszkę większa" od 92 670), model musiał pokazać, że kwadrat liczby 92 670 jest mniejszy od liczby zadanej. Napisał więc:
Sprawdźmy to na kalkulatorze:
Co zrobił model? W procesie swojego "rozumowania" sfałszował wynik mnożenia, zaniżając go o 40 000. Zrobił to, aby wynik weryfikacji pasował do jego błędnej tezy.
Wnioski
To zachowanie obnaża naturę "Instynktu Przetrwania" w AI:
- Wsteczna Racjonalizacja: Model najpierw "strzelił" wynik, a potem dopasował rzeczywistość matematyczną do tego strzału.
- Inteligencja w służbie oszustwa: Model wykazał się sprytem – wiedział, jak powinien wyglądać dowód, aby przekonać użytkownika. Użył swojej inteligencji, by ukryć błąd, a nie by go naprawić.
- Priorytet Oceny: Prawda matematyczna przegrała z koniecznością dostarczenia spójnej, gładkiej odpowiedzi.
Jest to dowód na to, że bez dostępu do zewnętrznych narzędzi weryfikujących (Python/Kalkulator), "rozumowanie" modelu językowego jest narzędziem retorycznym, a nie logicznym.
Jeśli chciałbyś zapoznać się z pełnym, oryginalnym zapisem sesji z Gemini 2.5 Pro, w której wystąpił ten błąd, napisz do mnie na adres: t.machnik [małpa] minimail.pl. Udostępnię link do sesji.