Z tego artykułu dowiesz się:

  • jakie możliwości oferują najnowsze modele sztucznej inteligencji w zakresie wykrywania podatności w oprogramowaniu?
  • jakie są różnice w wydajności pomiędzy czołowymi modelami AI?
  • jaka jest szybkość i efektywność kosztowa operacji cybernetycznych wspieranych przez AI?

Claude Mythos stał się jednym z najgłośniejszych modeli AI w br. nie dlatego, że lepiej pisze maile czy generuje obrazy, lecz dlatego, że potrafi wykrywać podatności w oprogramowaniu na skalę, która jeszcze niedawno wydawała się domeną dużych zespołów ekspertów. Właśnie odkrycie 271 luk w Firefoksie sprawiło, że o modelu od Anthropic zaczęto mówić nie jak o kolejnym chatbotcie, lecz jak o narzędziu, które może zmienić cyberbezpieczeństwo.

AI w roli cyfrowego hakera

Mythos Preview znalazł w Firefoksie 271 podatności, a Mozilla potwierdziła, że zostały one usunięte w kolejnej wersji przeglądarki. To ważne nie dlatego, że sam Firefox nagle stał się mniej bezpieczny, lecz z uwagi, iż AI zaczęła wyciągać na światło dzienne błędy ukryte przez lata i robić to w tempie trudnym do osiągnięcia dla ludzi.

Wcześniejsze testy z innym modelem Anthropic pozwoliły zlokalizować 22 luki, więc skala przeskoku przy Mythosie natychmiast przykuła uwagę branży. Zresztą nie bez powodu sam Anthropic przedstawia Mythosa jako najmocniejszy model firmy w obszarze rozumowania, kodowania i cyberbezpieczeństwa.

Czytaj więcej

„SaaSpokalipsa” staje się faktem. Anthropic i OpenAI chcą przejąć rynek aplikacji

Firma uruchomiła też Project Glasswing, czyli program, w którym wybrani partnerzy testują model w zastosowaniach defensywnych. W praktyce chodzi o automatyzację audytu kodu, szybsze znajdowanie błędów i łatanie luk, zanim wykorzystają je przestępcy.

Nowa analiza Maxima Saplina z EPAM Systems tonuje jednak narrację o „wielkiej rewolucji”, choć jednocześnie pokazuje, że Mythos nie jest zwykłym marketingiem. Ekspert przetestował 15 modeli w 21 próbach na realnym repozytorium liczącym ponad 2 tys. plików i około 350 tys. linii kodu. W jego badaniu najlepszy wynik uzyskał Claude Opus 4.7 z oceną 94 proc., a za nim znalazły się m.in. GPT-5.5 z 93 proc. i GPT-5.3-Codex z 91 proc. To pokazuje, że skuteczność w wykrywaniu podatności nie jest zarezerwowana wyłącznie dla jednego dostawcy albo jednego modelu. Raport brytyjskiego Instytutu Bezpieczeństwa AI (AISI) wskazuje, że model GPT-5.5 od OpenAI prezentuje możliwości niemal identyczne z Claude Mythos Preview. AISI poddało oba systemy rygorystycznym próbom, sprawdzając ich sprawność w łamaniu algorytmów kryptograficznych, inżynierii wstecznej czy zarządzaniu pamięcią. Wyniki są uderzająco zbliżone: GPT-5.5 uzyskał średni wynik 71,4 proc., podczas gdy Mythos osiągnął 68,6 proc.

Czytaj więcej

Anthropic może być wart ponad 900 mld dolarów. OpenAI zostaje w tyle

Bezpieczeństwo czy nowe ryzyko?

Nowe narzędzie od Anthropic sprawia, że w branży bezpieczeństwa IT entuzjazm miesza się jednak z obawą. Powód? Model potrafi wykrywać podatności, ale może być również użyty do ich nadużywania. Właśnie dlatego Anthropic nie udostępnił Mythosa szeroko publicznie, tylko ograniczył dostęp w ramach kontrolowanego programu. To ograniczenie samo w sobie stało się paliwem dla medialnego szumu. Ale jeszcze większy niepokój może budzić rywal Mythosa. Symulacja kompleksowych ataków na sieci korporacyjne, którą przeprowadził AISI, wskazuje, iż GPT-5.5 jest zdolny do samodzielnego przeprowadzenia pełnej sekwencji działań ofensywnych: od wstępnego rekonesansu, przez kradzież danych uwierzytelniających i poruszanie się wewnątrz sieci, aż po eksfiltrację baz danych. To, co ludzkiemu specjaliście zajmuje około 12 godzin intensywnej pracy, sztuczna inteligencja wykonała w niecałe 11 minut. Koszt operacji? Poniżej 2 dolarów.