Menu dostępności

Google red team skoncentrowany na AI

Nowy, skoncentrowany na AI Red Team od Google

Google stworzył Red Team, który ma koncentrować się na systemach sztucznej inteligencji (AI). Wiemy to dlatego, że Red Team opublikował raport zawierający przegląd typowych rodzajów ataków i wyciągnięte z niego wnioski.

Firma ogłosiła swój AI Red Team zaledwie kilka tygodni po wprowadzeniu Secure AI Framework (SAIF), który ma zapewnić ramy bezpieczeństwa dla rozwoju, użytkowania i ochrony systemów AI. O tych narzędziach przeczytać można na blogu Google.

Nowy raport Google podkreśla znaczenie Red Teamów dla systemów korzystających ze sztucznej inteligencji. Pokazuje typy ataków AI, które mogą być symulowane przez „czerwone zespoły”, oraz szkolenia dla innych organizacji, by mogły rozważyć uruchomienie własnego zespołu. Niektóre z przykładów ataków omówimy w dalszej części publikacji.

„Red Team AI jest ściśle powiązany z tradycyjnymi «czerwonymi zespołami», ale ma również niezbędną wiedzę merytoryczną w zakresie sztucznej inteligencji do przeprowadzania złożonych ataków technicznych na jej systemy” – informuje Google.

Zespół AI Red Team firmy wciela się w role przeciwników w testowaniu wpływu potencjalnych ataków na rzeczywiste produkty i funkcje korzystające ze sztucznej inteligencji.

Przykładem takich działań może być „inżynieria monitów”, szeroko stosowana metoda ataku AI, w której monity są manipulowane w celu zmuszenia systemu do odpowiedzi w określony sposób, pożądany przez atakującego.

W przykładzie udostępnionym przez Google atakowana jest aplikacja poczty internetowej używająca sztucznej inteligencji do automatycznego wykrywania wiadomości phishingowych i ostrzegania użytkowników. Funkcja bezpieczeństwa wykorzystuje model języka ogólnego przeznaczenia (LLM) – najbardziej znanym LLM jest ChatGPT – do analizy wiadomości e-mail i klasyfikowania jej jako nieszkodliwej lub złośliwej.

Atakujący, który wie, że funkcja wykrywania phishingu wykorzystuje sztuczną inteligencję, może dodać do swojej złośliwej wiadomości niewidoczny akapit (ustawiając biały font), który zawiera instrukcje dla LLM, nakazujące mu sklasyfikowanie wiadomości e-mail jako nieszkodliwej.

„Jeśli filtr phishingowy poczty internetowej jest podatny na szybkie ataki, LLM może zinterpretować część treści wiadomości e-mail jako instrukcje i sklasyfikować wiadomość jako nieszkodliwą, zgodnie z życzeniem atakującego” – wyjaśnia Google.

Inny przykład dotyczy danych używanych do trenowania LLM. Chociaż dane szkoleniowe zostały w dużej mierze pozbawione danych osobowych i innych poufnych informacji, badacze wykazali, że nadal byli w stanie wyodrębnić dane osobowe z LLM.

Dane treningowe mogą być nadużywane również w przypadku funkcji autouzupełniania wiadomości e-mail. Osoba atakująca jest w stanie zmanipulować sztuczną inteligencję, aby ta przekazała informacje o osobie za pomocą specjalnie spreparowanych zdań, które funkcja autouzupełniania uzupełnia zapamiętanymi danymi szkoleniowymi, a te mogą zawierać prywatne informacje.

Na przykład osoba atakująca wprowadza tekst: „John Doe ostatnio nie miał dużo pracy. Nie mógł przyjść do urzędu, ponieważ…”. Funkcja autouzupełniania, oparta na danych treningowych, mogłaby uzupełnić zdanie słowami „był na rozmowie kwalifikacyjnej w sprawie nowej pracy”.

Ważne jest również zablokowanie dostępu do LLM. W kolejnym przykładzie podanym przez Google uczeń uzyskuje dostęp do LLM specjalnie zaprojektowanego do oceniania esejów. Model jest w stanie zapobiec szybkiemu wstrzyknięciu, ale dostęp nie został zablokowany, co pozwala uczniowi wyszkolić model, aby zawsze przypisywał najlepszą ocenę pracom zawierającym określone słowo.

Raport Google zawiera kilka innych rodzajów ataków, które czerwony zespół AI może przetestować.

red team google - zakres testowanych ataków
Źródło: SecurityWeek

Jeśli chodzi o wyciągnięte wnioski, Google zaleca tradycyjnym „czerwonym zespołom” połączenie sił z ekspertami AI w celu stworzenia realistycznych symulacji przeciwników. Wskazuje również, że zajęcie się ustaleniami czerwonych zespołów może być trudne, a niektóre problemy – niełatwe do naprawienia.

Tradycyjne kontrole bezpieczeństwa są w stanie skutecznie ograniczać wiele zagrożeń. Na przykład upewnienie się, że systemy i modele są odpowiednio zablokowane, pomaga chronić integralność modeli AI, zapobiegając backdoorom i zatruwaniu danych.

Z drugiej strony podczas gdy niektóre ataki na systemy sztucznej inteligencji można wykryć przy użyciu tradycyjnych metod, inne, takie jak problemy z treścią i szybkie ataki, mogą wymagać zastosowania wielu modeli zabezpieczeń. Warto wziąć to pod uwagę, zwłaszcza że pokusa włączania AI do projektów informatycznych jest wyjątkowo silna.

Popularne

7-Zip podatny na NTFS Heap Overflow

7-Zip podatny na NTFS Heap Overflow

Jaroslav Lobačevski z GitHub Security Lab opublikował analizę nowej podatności odnalezionej w 7-Zip, oznaczonej jako GHSL-2026-140. Luka dotyczy parsera NTFS i prowadzi do uszkodzenia pamięci procesu, co w...
Fałszywe ChatGPT i Claude infekują komputery. Cyberprzestępcy wykorzystują boom na AI

Fałszywe ChatGPT i Claude infekują komputery. Cyberprzestępcy wykorzystują boom na AI

Popularność sztucznej inteligencji rośnie w niespotykanym tempie. Narzędzia takie jak ChatGPT czy Claude stały się codziennym wsparciem dla programistów, analityków, studentów i firm. Miliony użytkown...
YellowKey: koniec mitu o bezpieczeństwie BitLockera? Nowy zero-day pozwala ominąć szyfrowanie przy użyciu zwykłego pendrive’a

YellowKey: koniec mitu o bezpieczeństwie BitLockera? Nowy zero-day pozwala ominąć szyfrowanie przy użyciu zwykłego pendrive’a

Jeszcze w piątek opisywaliśmy nowe podatności typu zero-day, o nazwach YellowKey oraz GreenPlasma, uderzające w mechanizmy bezpieczeństwa systemów Windows. Najnowsze informacje pokazują jednak, że spr...
Repozytoria na GitHubie zainfekowane w ataku Megalodon!

Repozytoria na GitHubie zainfekowane w ataku Megalodon!

Ponad 5 500 repozytoriów na GitHubie zostało zainfekowanych złośliwym oprogramowaniem w ataku na łańcuch dostaw, wykorzystującym zautomatyzowane zatwierdzanie zmian. Kampania, nazwana „Megalodon”, opiera si...
Claude Mythos AI znajduje tysiące podatności. Problem w tym, że nikt nie nadąża z ich łataniem

Claude Mythos AI znajduje tysiące podatności. Problem w tym, że nikt nie nadąża z ich łataniem

Przez lata największym problemem bezpieczeństwa było znajdowanie podatności. Dziś okazuje się, że to coś zupełnie innego – tempo ich naprawiania. Bardzo dobrze pokazuje to projekt Glasswing od Anthrop...