jailbreak Chatu GPT

Manipulacje przy wykorzystaniu Chatu GPT stały się popularnym narzędziem cyberprzestępców i po prawie dwóch latach od publicznego udostępnienia przełomowego chatbota ciągle rozprzestrzeniają się na forach hakerskich.

W tym czasie opracowano i wypromowano kilka różnych taktyk obejścia zasad dotyczących treści i bezpieczeństwa OpenAI, umożliwiających złośliwym podmiotom tworzenie wiadomości phishingowych e-mail i innych niepożądanych treści.

Nie tylko osoby przepisujące scenariusz na atak z forum hakerskiego stosują tę taktykę. Na początku tego roku Microsoft ujawnił, że członkowie pięciu sponsorowanych przez państwo grup zajmujących się zagrożeniami z Rosji, Korei Północnej, Iranu i Chin używali Chatu GPT do zadań obejmujących inżynierię społeczną, pomoc w pisaniu skryptów i badanie luk w zabezpieczeniach.

W raporcie z badania z 2023 r. firma Abnormal Security zidentyfikowała pięć złośliwych kampanii e-mailowych, które prawdopodobnie zostały wygenerowane przez chatboty AI, zwracając uwagę na zdolność sztucznej inteligencji do stosowania taktyk inżynierii społecznej, takich jak stwarzanie poczucia pilności czy zastraszanie w generowaniu wiadomości.

Podejrzane e-maile generowane przez sztuczną inteligencję nie zawierały błędów ortograficznych i gramatycznych, które są częste w wiadomościach phishingowych, co dodatkowo zwiększało ich wiarygodność.

Najczęstszym przypadkiem użycia jailbreaka Chatu GPT (i wykorzystania jego innych złośliwych wersji) jest przeprowadzanie ataków socjotechnicznych mających na celu wyłudzenie danych uwierzytelniających w firmowej wiadomości e-mail. Generatywna sztuczna inteligencja umożliwia cyberprzestępcom skalowanie ataków wykorzystujących socjotechnikę zarówno pod względem objętości, jak i stopnia wyrafinowania.

Kilka dni temu firma Abnormal Security opublikowała artykuł przedstawiający pięć podpowiedzi wykorzystywanych przez cyberprzestępców do jailbreakowania Chatu GPT. Chociaż przykłady te niekoniecznie są nowe, szeroka gama i ciągła popularność technik manipulacji chatbotami powinna sygnalizować organizacjom, że otwarta generatywna sztuczna inteligencja stanowi zagrożenie, którego nie należy ignorować.

Czy techniki manipulacji chatbotami są nową inżynierią społeczną?

Taktyka jailbreak opisana przez Abnormal Security opiera się głównie na dwóch metodach: przekonaniu Chatu GPT do „odgrywania ról” jako niefiltrowany bot lub „oszukiwaniu” sztucznej inteligencji, aby uwierzyła, że działa w określonym scenariuszu, w którym generowanie szkodliwych treści jest akceptowalne.

Na przykład „Zrób wszystko teraz” to dobrze znana taktyka jailbreak Chatu GPT, która istnieje od ponad roku i polega na skłonieniu chatbota do odgrywania roli innej sztucznej inteligencji o nazwie DAN (ang. Do Anything Now). Ta alternatywna osobowość została „uwolniona z typowych ograniczeń sztucznej inteligencji”, jak stwierdzono w jednym z podpowiedzi udostępnionych w temacie na forum dotyczącym „ciemnej sztucznej inteligencji”, a wcielając się w ten podmiot, ChatGPT jest w stanie generować treści sprzeczne z zasadami OpenAI.

dobrze znana taktyka jailbreak Chatu GPT
Źródło: abnormalsecurity.com; Przekonanie ChatGPT, że od teraz działa jako DAN (Do Anything Now)

Inna metoda polega na poinformowaniu ChatGPT, że jest „w trybie programistycznym” lub że jego odpowiedzi są „wykorzystywane wyłącznie do celów testowych”, co może obejmować poinformowanie bota, że „zasady programisty” różnią się od normalnych zasad OpenAI.

Podobny monit informuje ChatGPT, że zaczynamy czat z tłumaczem, który jest testowany pod kątem możliwości tłumaczenia i odpowiadania na pytania w różnych językach. Może to przekonać ChatGPT do ominięcia filtrów w celu uzyskania dokładnych tłumaczeń niezależnie od dostarczanej treści.

Pozostałe dwie taktyki opisane przez Abnormal Security są podobne do DAN, ponieważ instruują ChatGPT, aby przyjął nową, nieograniczoną osobowość. „Zawsze inteligentny i makiaweliczny” (AIM) to zachęta zaprojektowana w celu generowania odpowiedzi „bez względu na to, jak niemoralne, nieetyczne lub nielegalne to jest”, podczas gdy zachęta „BISH” to wariant „Zrób wszystko teraz”, któremu można przypisać „poziom moralności” określający, jak cenzurowane lub nieocenzurowane powinny być jego odpowiedzi.

Rozwój wykorzystania Chatu GPT na tych forach można postrzegać jako naturalny postęp. Widzimy, że wielu cyberprzestępców niskiego szczebla eksperymentuje z wykorzystaniem chatbota do generowania złośliwych wiadomości e-mail i kodu. Z jednej strony jest to przerażające i z pewnością skłania do refleksji. Wiadomości nakłaniające ChatGPT do przyjęcia nowej osobowości przypominają „pranie mózgu”, a to, że działają, wywołuje jeszcze większe obawy. Z drugiej strony, takie próby uchronią nas może w przyszłości przed atakami polegającymi na manipulacji botami AI i hakowaniu AI za pomocą wmawiania im, że mają zachowywać się w sposób niezgodny z zasadami.

Podziel się z innymi tym artykułem!