Menu dostępności

Google red team skoncentrowany na AI

Nowy, skoncentrowany na AI Red Team od Google

Google stworzył Red Team, który ma koncentrować się na systemach sztucznej inteligencji (AI). Wiemy to dlatego, że Red Team opublikował raport zawierający przegląd typowych rodzajów ataków i wyciągnięte z niego wnioski.

Firma ogłosiła swój AI Red Team zaledwie kilka tygodni po wprowadzeniu Secure AI Framework (SAIF), który ma zapewnić ramy bezpieczeństwa dla rozwoju, użytkowania i ochrony systemów AI. O tych narzędziach przeczytać można na blogu Google.

Nowy raport Google podkreśla znaczenie Red Teamów dla systemów korzystających ze sztucznej inteligencji. Pokazuje typy ataków AI, które mogą być symulowane przez „czerwone zespoły”, oraz szkolenia dla innych organizacji, by mogły rozważyć uruchomienie własnego zespołu. Niektóre z przykładów ataków omówimy w dalszej części publikacji.

„Red Team AI jest ściśle powiązany z tradycyjnymi «czerwonymi zespołami», ale ma również niezbędną wiedzę merytoryczną w zakresie sztucznej inteligencji do przeprowadzania złożonych ataków technicznych na jej systemy” – informuje Google.

Zespół AI Red Team firmy wciela się w role przeciwników w testowaniu wpływu potencjalnych ataków na rzeczywiste produkty i funkcje korzystające ze sztucznej inteligencji.

Przykładem takich działań może być „inżynieria monitów”, szeroko stosowana metoda ataku AI, w której monity są manipulowane w celu zmuszenia systemu do odpowiedzi w określony sposób, pożądany przez atakującego.

W przykładzie udostępnionym przez Google atakowana jest aplikacja poczty internetowej używająca sztucznej inteligencji do automatycznego wykrywania wiadomości phishingowych i ostrzegania użytkowników. Funkcja bezpieczeństwa wykorzystuje model języka ogólnego przeznaczenia (LLM) – najbardziej znanym LLM jest ChatGPT – do analizy wiadomości e-mail i klasyfikowania jej jako nieszkodliwej lub złośliwej.

Atakujący, który wie, że funkcja wykrywania phishingu wykorzystuje sztuczną inteligencję, może dodać do swojej złośliwej wiadomości niewidoczny akapit (ustawiając biały font), który zawiera instrukcje dla LLM, nakazujące mu sklasyfikowanie wiadomości e-mail jako nieszkodliwej.

„Jeśli filtr phishingowy poczty internetowej jest podatny na szybkie ataki, LLM może zinterpretować część treści wiadomości e-mail jako instrukcje i sklasyfikować wiadomość jako nieszkodliwą, zgodnie z życzeniem atakującego” – wyjaśnia Google.

Inny przykład dotyczy danych używanych do trenowania LLM. Chociaż dane szkoleniowe zostały w dużej mierze pozbawione danych osobowych i innych poufnych informacji, badacze wykazali, że nadal byli w stanie wyodrębnić dane osobowe z LLM.

Dane treningowe mogą być nadużywane również w przypadku funkcji autouzupełniania wiadomości e-mail. Osoba atakująca jest w stanie zmanipulować sztuczną inteligencję, aby ta przekazała informacje o osobie za pomocą specjalnie spreparowanych zdań, które funkcja autouzupełniania uzupełnia zapamiętanymi danymi szkoleniowymi, a te mogą zawierać prywatne informacje.

Na przykład osoba atakująca wprowadza tekst: „John Doe ostatnio nie miał dużo pracy. Nie mógł przyjść do urzędu, ponieważ…”. Funkcja autouzupełniania, oparta na danych treningowych, mogłaby uzupełnić zdanie słowami „był na rozmowie kwalifikacyjnej w sprawie nowej pracy”.

Ważne jest również zablokowanie dostępu do LLM. W kolejnym przykładzie podanym przez Google uczeń uzyskuje dostęp do LLM specjalnie zaprojektowanego do oceniania esejów. Model jest w stanie zapobiec szybkiemu wstrzyknięciu, ale dostęp nie został zablokowany, co pozwala uczniowi wyszkolić model, aby zawsze przypisywał najlepszą ocenę pracom zawierającym określone słowo.

Raport Google zawiera kilka innych rodzajów ataków, które czerwony zespół AI może przetestować.

red team google - zakres testowanych ataków
Źródło: SecurityWeek

Jeśli chodzi o wyciągnięte wnioski, Google zaleca tradycyjnym „czerwonym zespołom” połączenie sił z ekspertami AI w celu stworzenia realistycznych symulacji przeciwników. Wskazuje również, że zajęcie się ustaleniami czerwonych zespołów może być trudne, a niektóre problemy – niełatwe do naprawienia.

Tradycyjne kontrole bezpieczeństwa są w stanie skutecznie ograniczać wiele zagrożeń. Na przykład upewnienie się, że systemy i modele są odpowiednio zablokowane, pomaga chronić integralność modeli AI, zapobiegając backdoorom i zatruwaniu danych.

Z drugiej strony podczas gdy niektóre ataki na systemy sztucznej inteligencji można wykryć przy użyciu tradycyjnych metod, inne, takie jak problemy z treścią i szybkie ataki, mogą wymagać zastosowania wielu modeli zabezpieczeń. Warto wziąć to pod uwagę, zwłaszcza że pokusa włączania AI do projektów informatycznych jest wyjątkowo silna.

Popularne

Alarm dla administratorów i działów bezpieczeństwa – krytyczna luka CVE-2025-59287 w Windows Server Update Services wykorzystywana przez cyberprzestępców! Zabezpiecz się, zanim Twoja infrastruktura padnie ofiarą ataku

Alarm dla administratorów i działów bezpieczeństwa – krytyczna luka CVE-2025-59287 w Windows Server Update Services wykorzystywana przez cyberprzestępców! Zabezpiecz się, zanim Twoja infrastruktura padnie ofiarą ataku

Pojawiła się groźna luka, oznaczona jako CVE-2025-59287, pozwalająca atakującym na zdalne wykonanie kodu w systemach z rolą Windows Server Update Services („WSUS”). Co gorsza, został już udostępniony publiczny ex...
Jak poznać hasło administratora lub użytkowników logujących się do Twojego komputera?

Jak poznać hasło administratora lub użytkowników logujących się do Twojego komputera?

Jeśli masz odrobinę szczęścia lub „odpowiednie umiejętności” i potrafisz zdobyć lokalne uprawnienia administracyjne na Twoim komputerze w firmie lub zaliczasz się do grona tych szczęściarzy, którzy pracuj...
Nowo odkryte podatności w ChatGPT pozwalają przekonać chatbota do ujawnienia wrażliwych danych

Nowo odkryte podatności w ChatGPT pozwalają przekonać chatbota do ujawnienia wrażliwych danych

Najnowsze badania firmy Tenable ujawniają zestaw co najmniej siedmiu poważnych podatności w modelach AI GPT‑4o i GPT‑5, wykorzystywanych przez ChatGPT, które umożliwiają złośliwym podmiotom przejęcie k...
Jak zmienić nieznane/zapomniane hasło Administratora na Windows?

Jak zmienić nieznane/zapomniane hasło Administratora na Windows?

W tym artykule pokażemy, jak możemy zmienić hasło administratora na komputerze posiadając do niego fizyczny dostęp. Artykuł ten można potraktować także jako przestrogę dla firm, które nie zaimplementowały jeszcze odpo...
Cicha persystencja – jak rosyjskie kampanie APT atakują firmy w Ukrainie. Porady dla działów bezpieczeństwa

Cicha persystencja – jak rosyjskie kampanie APT atakują firmy w Ukrainie. Porady dla działów bezpieczeństwa

W ostatnich miesiącach coraz mocniej zintensyfikowane działania cybernetyczne skierowane przez podmioty powiązane z Rosją na instytucje ukraińskie rzucają nowe światło na metody rozgrywania współczesnego konfliktu...