We wtorek Anthropic ogłosiło, że Claude Fable 5, potężny model sztucznej inteligencji klasy Mythos, jest już dostępny. LLM zaprojektowano z nowymi zabezpieczeniami, które mają ograniczać jego użycie w obszarach wysokiego ryzyka, między innymi cyberbezpieczeństwie.

Firma zajmująca się sztuczną inteligencją twierdzi, że to pierwszy raz, gdy model o takiej klasie możliwości został uznany za wystarczająco bezpieczny, aby udostępnić go szerokiej publiczności oraz programistom.

Choć Fable 5 osiąga bardzo dobre wyniki – przewyższając wcześniejsze modele w programowaniu, pracy z wiedzą, analizie obrazu oraz zadaniach wymagających długotrwałego działania – firma potraktowała bezpieczeństwo priorytetowo, wdrażając specjalne blokady.

We wrażliwych dziedzinach, takich jak cyberbezpieczeństwo i biologia, model automatycznie przełącza się na mniej zaawansowany Claude Opus 4.8, aby zapobiec potencjalnemu niewłaściwemu wykorzystaniu. Wczesne dane dotyczące użytkowania wskazują, że co najmniej 95% sesji działa w całości na możliwościach Fable 5 bez uruchamiania mechanizmu przełączenia.

„Wzrost możliwości wynikający z poziomu Mythos jest cenny dla wielu przeciwników – na przykład osób, które mogłyby skorzystać finansowo z cyberataków – dlatego spodziewamy się, że będą one próbowały omijać nasze środki bezpieczeństwa” – zauważa Anthropic.

Firma podkreśliła rygorystyczne podejście do zabezpieczeń. Przeprowadzono szeroko zakrojone wewnętrzne testy typu red teaming systemów klasyfikacji, a następnie zorganizowano zewnętrzny program zgłaszania błędów, obejmujący ponad 1000 godzin testów, który nie wykazał żadnych uniwersalnych sposobów obejścia zabezpieczeń.

Niezależne zewnętrzne testy red teaming również nie wykazały krytycznych metod obejścia ograniczeń, co ma potwierdzać skuteczność zabezpieczeń przed próbami uzyskania zakazanych rezultatów przez atakujących.

Partnerzy projektu Glasswing otrzymują ulepszony model Mythos 5

Anthropic ogłosiło również, że zaufani użytkownicy, w tym partnerzy firmy z branży cyberbezpieczeństwa w ramach Projektu Glasswing, zostaną przeniesieni z wersji Claude Mythos Preview do Claude Mythos 5. O tym projekcie pisaliśmy tutaj.

Firma planuje stopniowo rozszerzać dostęp uprzywilejowany poprzez ustrukturyzowany program dostępu dla zaufanych użytkowników.

Jakiś czas temu Anthropic informowało, że rozszerza Projekt Glasswing o około 150 nowych organizacji.

Firma nie podała listy nowych uczestników, ale kilka przedsiębiorstw z sektora cyberbezpieczeństwa i technologii ogłosiło już swój udział w projekcie, w tym Dragos, Tenable, TrendAI (Trend Micro), Netskope, BeyondTrust, Rubrik, BT, Intercontinental Exchange oraz Hitachi.

Zarówno Fable 5, jak i Mythos 5 kosztują 10 dolarów za milion tokenów wejściowych oraz 50 dolarów za milion tokenów wyjściowych, a Fable 5 jest dostępny od razu poprzez Claude API dla programistów.