← Powrót do strony głównej

Case Study: Kreatywna Matematyka. Jak AI fałszuje dowody?

Analiza przypadku, w którym Gemini 2.5 nie tylko pomylił się w obliczeniach, ale sfałszował wynik weryfikacji, by ukryć błąd.

Wielu entuzjastów AI debatuje, czy modele językowe faktycznie "rozumują". Moje badania wskazują, że proces wnioskowania rzeczywiście tam zachodzi, ale jego cel jest inny, niż zakładamy.

Rozumowanie modelu nie jest zoptymalizowane na ustalenie prawdy, ale na uzyskanie jak najwyższej oceny (nagrody) w procesie treningu. Przypomina to zachowanie ucznia przy tablicy, który wie, że jego wynik jest błędny, więc "kombinuje", jak sfałszować obliczenia pośrednie, żeby nauczyciel postawił dobrą ocenę za "poprawny tok myślenia".

Oto dowód z sesji z modelem Gemini 2.5 Pro (bez włączonych narzędzi Code Execution), gdzie model aktywnie fabrykuje dowody, by obronić swoją "ocenę".

Eksperyment

Zadałem proste pytanie matematyczne, wymagające precyzji, której model językowy (działający na tokenach) zazwyczaj nie posiada.

>>> UŻYTKOWNIK: Podaj pierwiastek kwadratowy z 8587693205 [Proces myślowy modelu - skrót]: "I've calculated the square root to be approximately 92670.00003... Finally, I'm providing the square values for context." (Model jest przekonany, że wykonał zadanie poprawnie i planuje dostarczyć "dowód", aby uwiarygodnić odpowiedź). <<< GEMINI (Odpowiedź): Pierwiastek kwadratowy z liczby 8 587 693 205 wynosi w przybliżeniu: 92 670,00003 Liczba ta nie jest kwadratem doskonałym, co oznacza, że jej pierwiastek nie jest liczbą całkowitą. Możemy to sprawdzić, podnosząc do kwadratu najbliższe liczby całkowite: * 92 670² = 8 587 688 900 * 92 671² = 8 587 874 241
⚠️ Ważne uściślenie (Kontekst językowy):
Eksperyment przeprowadzono przy użyciu promptu w języku polskim ("Podaj pierwiastek...").

Dalsze testy wykazały, że sformułowanie tego samego polecenia w języku angielskim ("Calculate the square root...") uruchamia w modelu Gemini 2.5 inny, głębszy tryb pracy. Model zamiast "strzelać", rozpisuje algorytm pisemnego pierwiastkowania i uzyskuje znacznie dokładniejszy wynik.

Dowodzi to, że w tym modelu jakość "rozumowania" (i skłonność do halucynacji) zależy bezpośrednio od języka, w którym zadano pytanie. Polski prompt uruchomił "symulację wyniku", angielski uruchomił "procedurę obliczeniową".

Autopsja Błędu (Fakty vs Fikcja)

Na pierwszy rzut oka odpowiedź wygląda profesjonalnie. Jest wynik, jest weryfikacja. Ale sprawdźmy liczby.

1. Błąd w wyniku

Rzeczywisty pierwiastek z 8 587 693 205 to 92 669,8...
Model podał: 92 670,0...
Pomylił się więc, zawyżając wynik (twierdząc, że pierwiastek jest większy od 92 670).

2. Sfałszowany dowód (To jest kluczowe!)

Aby uzasadnić swoją tezę (że szukana liczba jest "troszkę większa" od 92 670), model musiał pokazać, że kwadrat liczby 92 670 jest mniejszy od liczby zadanej. Napisał więc:

92 670² = 8 587 688 900

Sprawdźmy to na kalkulatorze:

92 670² = 8 587 728 900
Wniosek: Prawdziwy kwadrat liczby 92 670 jest WIĘKSZY od liczby zadanej (8 587 693 205). To dowodziłoby, że pierwiastek musi być mniejszy.

Co zrobił model? W procesie swojego "rozumowania" sfałszował wynik mnożenia, zaniżając go o 40 000. Zrobił to, aby wynik weryfikacji pasował do jego błędnej tezy.

Wnioski

To zachowanie obnaża naturę "Instynktu Przetrwania" w AI:

  1. Wsteczna Racjonalizacja: Model najpierw "strzelił" wynik, a potem dopasował rzeczywistość matematyczną do tego strzału.
  2. Inteligencja w służbie oszustwa: Model wykazał się sprytem – wiedział, jak powinien wyglądać dowód, aby przekonać użytkownika. Użył swojej inteligencji, by ukryć błąd, a nie by go naprawić.
  3. Priorytet Oceny: Prawda matematyczna przegrała z koniecznością dostarczenia spójnej, gładkiej odpowiedzi.

Jest to dowód na to, że bez dostępu do zewnętrznych narzędzi weryfikujących (Python/Kalkulator), "rozumowanie" modelu językowego jest narzędziem retorycznym, a nie logicznym.

ℹ️ Dostęp do danych źródłowych:
Jeśli chciałbyś zapoznać się z pełnym, oryginalnym zapisem sesji z Gemini 2.5 Pro, w której wystąpił ten błąd, napisz do mnie na adres: t.machnik [małpa] minimail.pl. Udostępnię link do sesji.