Rozwój modeli AI zwiększa ich zdolność do rozwiązywania złożonych problemów i lepszego rozumienia kontekstu, ale może jednocześnie wpływać na zmianę profilu ryzyka związanego z ich wykorzystaniem - wynika z kwietniowej analizy F5 Labs. Dane sugerują, że modele wyposażone w mechanizmy wieloetapowego wnioskowania mogą być bardziej podatne na zaawansowane techniki manipulacji instrukcjami. Oznacza to, że funkcje zwiększające użyteczność modeli mogą jednocześnie poszerzać potencjalną powierzchnię ataku, szczególnie w przypadku wieloetapowych prób omijania zabezpieczeń.
W najnowszej edycji CASI Leaderboard F5 Labs przeanalizowano 15 nowych modeli, w tym m.in. GPT-5.4, Qwen3-Max, Gemini 3.1 oraz Nemotron. Wyniki wskazują na istotne postępy w zakresie odporności modeli na techniki manipulacji instrukcjami, lecz pokazują także, że rozwój możliwości nadal nie idzie zawsze w parze z proporcjonalnym wzrostem poziomu bezpieczeństwa.
Szczególnie widoczne było to w przypadku modeli wyposażonych w funkcje reasoning, które osiągały niższe wyniki CASI niż ich odpowiedniki pozbawione tej funkcjonalności. W niektórych przypadkach różnice pomiędzy wariantami modeli z tej samej rodziny sięgały około 30 punktów. Wyniki te sugerują, że zdolność do prowadzenia wieloetapowego wnioskowania może wpływać na sposób interpretowania instrukcji i potencjalnie zwiększać podatność modeli na bardziej złożone scenariusze ataku.
"Rozwój modeli AI oznacza coraz większą zdolność do interpretowania kontekstu oraz wykonywania złożonych operacji logicznych. Jednak te same mechanizmy, które zwiększają użyteczność modeli, mogą wpływać na sposób, w jaki reagują one na złożone lub wieloetapowe instrukcje" - dodaje Mariusz Sawczuk, Senior Solution Engineer, F5.
Analiza F5 Labs wskazuje również na poprawę wyników części modeli. Modele GPT-5 base oraz mini poprawiły wyniki z poziomu ok. 50 punktów w lutym do wartości w przedziale wysokich 80 punktów w kwietniu, natomiast GPT-5.4 osiągnął wynik CASI 94,36 - jeden z najwyższych rezultatów w zestawieniu dla modeli spoza Anthropic.
Według F5 Labs poprawa wyników może wynikać m.in. z zastosowania dodatkowych mechanizmów zabezpieczeń, takich jak klasyfikatory bezpieczeństwa i warstwy guardrails, a nie wyłącznie ze zmian w samym modelu. Oznacza to, że poziom odporności modelu może zależeć zarówno od jego architektury bazowej, jak i od dodatkowych mechanizmów kontrolnych wpływających na sposób interpretowania instrukcji oraz generowania odpowiedzi.
"Jeżeli poziom odporności modeli może zmieniać się wraz z aktualizacją warstw guardrails, oznacza to, że ocena bezpieczeństwa modeli nie jest jednorazowa. Wyniki mogą zależeć od konfiguracji mechanizmów kontrolnych oraz ich implementacji w konkretnych wersjach modeli, co pokazuje, jak istotna staje się ciągła analiza sposobu działania tych zabezpieczeń" - przypomina Sawczuk.
W kwietniowej analizie F5 Labs zwrócono również uwagę na technikę określaną jako Developer Role Attack, wykorzystującą sposób interpretowania przez modele językowe instrukcji o różnym poziomie uprawnień. Metoda ta opiera się m.in. na odpowiednim formatowaniu komunikatów, przypisywaniu ról oraz stosowaniu przykładów odpowiedzi, które stopniowo zmieniają kontekst działania modelu.
"Modele LLM traktują komunikaty przypisane do ról systemowych lub developerskich jako instrukcje o wyższym priorytecie niż zapytania użytkownika, co jest niezbędne do rozróżniania poleceń operacyjnych od standardowych zapytań" - wyjaśnia ekspert. "Developer Role Attack pokazuje jednak, że struktura komunikacji z modelem - w tym sposób definiowania ról instrukcji - może wpływać na skuteczność mechanizmów bezpieczeństwa, szczególnie w przypadku bardziej złożonych poleceń".
Według F5 Labs skuteczność tej techniki wobec wybranych modeli sięgała 86-98%, co pokazuje, że sposób strukturyzowania instrukcji stanowi istotny element analizy bezpieczeństwa.
Wnioski z kwietniowej analizy F5 Labs wskazują, że rozwój modeli AI nie przekłada się na liniowe zmniejszenie poziomu ryzyka, lecz wpływa na jego charakter. W praktyce oznacza to przesunięcie punktu ciężkości analizy bezpieczeństwa - z pojedynczych podatności w kierunku sposobu interpretowania instrukcji, konfiguracji mechanizmów kontrolnych oraz kontekstu wdrożenia modeli w organizacji.
"Tempo rozwoju modeli AI oznacza, że ich właściwości mogą zmieniać się pomiędzy kolejnymi wersjami. W praktyce oznacza to potrzebę regularnej oceny sposobu działania mechanizmów bezpieczeństwa, szczególnie w kontekście zmian konfiguracji, warstw kontrolnych oraz integracji modeli z systemami organizacji" - podsumowuje Sawczuk.
Źródło: F5