Z tego artykułu dowiesz się:
- jakie możliwości oferują najnowsze modele sztucznej inteligencji w zakresie wykrywania podatności w oprogramowaniu?
- jakie są różnice w wydajności pomiędzy czołowymi modelami AI?
- jaka jest szybkość i efektywność kosztowa operacji cybernetycznych wspieranych przez AI?
Claude Mythos stał się jednym z najgłośniejszych modeli AI w br. nie dlatego, że lepiej pisze maile czy generuje obrazy, lecz dlatego, że potrafi wykrywać podatności w oprogramowaniu na skalę, która jeszcze niedawno wydawała się domeną dużych zespołów ekspertów. Właśnie odkrycie 271 luk w Firefoksie sprawiło, że o modelu od Anthropic zaczęto mówić nie jak o kolejnym chatbotcie, lecz jak o narzędziu, które może zmienić cyberbezpieczeństwo.
AI w roli cyfrowego hakera
Mythos Preview znalazł w Firefoksie 271 podatności, a Mozilla potwierdziła, że zostały one usunięte w kolejnej wersji przeglądarki. To ważne nie dlatego, że sam Firefox nagle stał się mniej bezpieczny, lecz z uwagi, iż AI zaczęła wyciągać na światło dzienne błędy ukryte przez lata i robić to w tempie trudnym do osiągnięcia dla ludzi.
Wcześniejsze testy z innym modelem Anthropic pozwoliły zlokalizować 22 luki, więc skala przeskoku przy Mythosie natychmiast przykuła uwagę branży. Zresztą nie bez powodu sam Anthropic przedstawia Mythosa jako najmocniejszy model firmy w obszarze rozumowania, kodowania i cyberbezpieczeństwa.
Czytaj więcej
Premiera Claude Design wywołała rynkowe tąpnięcie i pokazała, że modele AI mogą stać się pełnoprawnymi aplikacjami. Tradycyjny SaaS zaczyna tracić...
Firma uruchomiła też Project Glasswing, czyli program, w którym wybrani partnerzy testują model w zastosowaniach defensywnych. W praktyce chodzi o automatyzację audytu kodu, szybsze znajdowanie błędów i łatanie luk, zanim wykorzystają je przestępcy.
Nowa analiza Maxima Saplina z EPAM Systems tonuje jednak narrację o „wielkiej rewolucji”, choć jednocześnie pokazuje, że Mythos nie jest zwykłym marketingiem. Ekspert przetestował 15 modeli w 21 próbach na realnym repozytorium liczącym ponad 2 tys. plików i około 350 tys. linii kodu. W jego badaniu najlepszy wynik uzyskał Claude Opus 4.7 z oceną 94 proc., a za nim znalazły się m.in. GPT-5.5 z 93 proc. i GPT-5.3-Codex z 91 proc. To pokazuje, że skuteczność w wykrywaniu podatności nie jest zarezerwowana wyłącznie dla jednego dostawcy albo jednego modelu. Raport brytyjskiego Instytutu Bezpieczeństwa AI (AISI) wskazuje, że model GPT-5.5 od OpenAI prezentuje możliwości niemal identyczne z Claude Mythos Preview. AISI poddało oba systemy rygorystycznym próbom, sprawdzając ich sprawność w łamaniu algorytmów kryptograficznych, inżynierii wstecznej czy zarządzaniu pamięcią. Wyniki są uderzająco zbliżone: GPT-5.5 uzyskał średni wynik 71,4 proc., podczas gdy Mythos osiągnął 68,6 proc.
Czytaj więcej
Firma Anthropic może wkrótce wyprzedzić OpenAI i zostać najcenniejszym graczem w branży sztucznej inteligencji. Inwestorzy ustawiają się w kolejce,...
Bezpieczeństwo czy nowe ryzyko?
Nowe narzędzie od Anthropic sprawia, że w branży bezpieczeństwa IT entuzjazm miesza się jednak z obawą. Powód? Model potrafi wykrywać podatności, ale może być również użyty do ich nadużywania. Właśnie dlatego Anthropic nie udostępnił Mythosa szeroko publicznie, tylko ograniczył dostęp w ramach kontrolowanego programu. To ograniczenie samo w sobie stało się paliwem dla medialnego szumu. Ale jeszcze większy niepokój może budzić rywal Mythosa. Symulacja kompleksowych ataków na sieci korporacyjne, którą przeprowadził AISI, wskazuje, iż GPT-5.5 jest zdolny do samodzielnego przeprowadzenia pełnej sekwencji działań ofensywnych: od wstępnego rekonesansu, przez kradzież danych uwierzytelniających i poruszanie się wewnątrz sieci, aż po eksfiltrację baz danych. To, co ludzkiemu specjaliście zajmuje około 12 godzin intensywnej pracy, sztuczna inteligencja wykonała w niecałe 11 minut. Koszt operacji? Poniżej 2 dolarów.