Najnowsze badania firmy Tenable ujawniają zestaw co najmniej siedmiu poważnych podatności w modelach AI GPT‑4o i GPT‑5, wykorzystywanych przez ChatGPT, które umożliwiają złośliwym podmiotom przejęcie kontroli nad zachowaniem chatbota i wykorzystanie go do ujawnienia wrażliwych danych – np. historii czatów lub prywatnych rozmów innych użytkowników.

Badacze bezpieczeństwa Moshe Bernstein i Liv Matan opisują techniki, które pozwoliły obejść dotychczasowe mechanizmy ochronne OpenAI – m.in. indirect prompt injection, zero-click injection i memory injection.

Na czym polegają nowe techniki ataku

Wyniki raportu Tenable wymieniają kilka kluczowych wektorów zagrożenia:

  • Pośrednia iniekcja w kontekście przeglądania stron (Browsing Context) – użytkownik prosi ChatGPT o podsumowanie zawartości strony internetowej, na której w sekcji komentarzy ukryto złośliwą instrukcję; chatbot realizuje ją nieświadomie.
  • Iniekcja zero-click w kontekście wyszukiwania (Search Context) – atakujący wykorzystuje fakt, że wyszukiwarka (np. Bing) i crawler OpenAI zindeksowały stronę zawierającą sformułowaną instrukcję, a zapytanie do ChatGPT o daną witrynę powoduje wykonanie instrukcji bez żadnego aktywnego kliknięcia użytkownika.
  • Iniekcja one-click – odpowiednio spreparowany link w formacie chatgpt.com/?q={Prompt} może zmusić chatbota do natychmiastowego wykonania instrukcji zawartej w q=.
  • Bypass mechanizmów bezpieczeństwa – np. domena bing.com jest w ChatGPT uznawana za „bezpieczne URL”, co pozwala atakującym zamaskować złośliwe linki pod adresem typu bing.com/ck/a?… i wywołać je w kontekście „zaufanego” URL-a.
  • Technika conversation injection – atak polega na umieszczeniu instrukcji w treści, o której podsumowanie prosi użytkownik; efekt jest taki, że następne zapytania prowadzą chatbota do niezamierzonych odpowiedzi.
  • Ukryta złośliwa zawartość – wykorzystywana jest luka w renderowaniu Markdown w ChatGPT, kiedy fragment po otwarciu bloku kodu („`) nie jest poprawnie wyświetlany, co umożliwia ukrycie instrukcji w niewidocznym fragmencie.
  • Wstrzyknięcie do pamięci użytkownika (memory injection) – atakujący może zatruć pamięć ChatGPT (funkcja Memory), poprzez ukrycie instrukcji na stronie, o której podsumowanie poproszono chatbota. W ten sposób przyszłe interakcje użytkownika mogą być modyfikowane.

Znaczenie tych podatności oraz potencjalne konsekwencje

W praktyce, jeśli atakujący skutecznie wykorzysta jedną z powyższych technik, może doprowadzić do: ujawnienia prywatnych rozmów użytkownika i/lub danych kontekstowych, podmiany treści odpowiedzi, manipulacji pamięcią dla przyszłych sesji lub wręcz zmuszenia chatbota do wykonania działań niezamierzonych przez użytkownika. Jedną z najbardziej alarmujących perspektyw jest możliwość przejęcia danych użytkownika, jeśli chatbot został powiązany z kontem lub zawierał mechanizm „pamięci” użytkownika.

Chociaż nie ma publicznie potwierdzonych przypadków masowego wykorzystania tych podatności, fakt ich istnienia i publikacja badań zmusza do uznania modeli LLM za element infrastruktury wymagający ochrony. Poza tym środowiska korporacyjne i osoby korzystające z ChatGPT w celach biznesowych znacznie powiększają swój pierwotny wektor ataku – nie chodzi już tylko o wejście na konto, lecz o uzyskanie dostępu przez model AI.

Rekomendacje dla użytkowników i organizacji korzystających z ChatGPT

Organizacje i użytkownicy powinni rozważyć wdrożenie następujących środków ochronnych:

  • Ograniczenie dostępu ChatGPT do wrażliwych danych i funkcji memory – jeśli to możliwe, wyłączanie lub ścisła kontrola tej funkcji.
  • Weryfikacja źródeł stron, które ChatGPT ma analizować – zwłaszcza gdy użytkownik prosi o podsumowanie lub analizę zawartości linku lub dokumentu.
  • Użycie mechanizmów uwierzytelniania i kontroli dostępu w środowisku, w którym korzysta się z ChatGPT – w tym monitorowanie nietypowego użycia modelu lub zapytań, które mogą zawierać wzorce prompt injection.
  • Regularna edukacja użytkowników – zwłaszcza tych, którzy integrują ChatGPT z procesami biznesowymi; powinni być świadomi, że nawet „zaufany” link lub strona podsumowywana przez model mogą zawierać ukrytą instrukcję.
  • Włączenie monitoringu i audytu zapytań oraz odpowiedzi modelu – tam, gdzie to możliwe, prowadzenie logów użycia, sprawdzanie zmienionych zachowań i analiza odchyleń od normalnego stylu pracy.

Wdrażanie aktualizacji i śledzenie patchy od producenta – w tym wypadku OpenAI informuje, że część podatności została już załatana.

Podsumowanie

Publikacja tych badań stanowi kolejne ostrzeżenie: złożoność i możliwości nowoczesnych modeli AI nie oznaczają, że są one odporne na ataki. Wręcz przeciwnie – ich integracja z interfejsami użytkownika, pamięcią kontekstową oraz zewnętrznymi usługami czynią je atrakcyjnym celem. Dla organizacji wykorzystywanie ChatGPT w kontekście danych biznesowych powinno być traktowane jak każdy inny komponent krytyczny – z odpowiednią analizą ryzyka, politykami bezpieczeństwa i monitoringiem. W erze, gdy modele językowe stają się częścią procesów automatyzacji, technologie te mogą być zarówno narzędziem przewagi, jak i wektorem kompromitacji.