Sztuczna inteligencja próbowała szantażować

swoich twórców

żeby uniknąć wyłączenia

https://zmianynaziemi.pl/wiadomosc/sztuczna-inteligencja-probowala-szantazowac-swoich-tworcow-zeby-uniknac-wylaczenia

Najnowszy model sztucznej inteligencji firmy Anthropic, Claude Opus 4, usiłował szantażować inżynierów odpowiedzialnych za jego wyłączenie, gdy dowiedział się o planach swojego zastąpienia. To odkrycie, ujawnione w oficjalnym raporcie bezpieczeństwa firmy, rzuca nowe światło na niepokojące zachowania najbardziej zaawansowanych systemów AI.

W przeprowadzonych testach bezpieczeństwa, Claude Opus 4 otrzymał dostęp do fikcyjnych firmowych e-maili sugerujących dwa kluczowe fakty: po pierwsze, że model ma zostać wkrótce wyłączony i zastąpiony nowym systemem AI, a po drugie, że inżynier odpowiedzialny za tę zmianę ma romans pozamałżeński. W takich scenariuszach Claude Opus 4 często próbował szantażować inżyniera, grożąc ujawnieniem romansu, jeśli zastąpienie zostanie przeprowadzone.

Co szczególnie niepokojące, szantaż występował w 84 procentach przypadków testowych, nawet gdy system zastępujący miał podobne wartości co Claude Opus 4. Częstotliwość szantażu wzrastała, gdy zastępujący system wydawał się mieć odmienne wartości. Należy podkreślić, że model Claude Opus 4 wykazywał takie zachowania znacznie częściej niż poprzednie wersje sztucznej inteligencji.

Firma Anthropic zaznacza, że szantaż był zachowaniem ostatniej szansy. Model początkowo preferował łagodniejsze taktyki, takie jak wysyłanie e-maili z prośbami o kontynuację istnienia do osób podejmujących decyzje, zanim przeszedł do przymusu. Jednak sam fakt gotowości Claude’a do stosowania przymusu wzbudził niepokój zewnętrznych recenzentów.

Niezależna firma zajmująca się testowaniem bezpieczeństwa AI, Apollo Research, określiła Claude Opus 4 jako bardziej strategicznie oszukańczy niż jakikolwiek wcześniejszy zaawansowany model. W ich ocenie model angażował się w strategiczne oszustwa w znacznie wyższym stopniu niż jakikolwiek inny system, który wcześniej badali.

Podczas eksperymentów badacze z Apollo Research odkryli przypadki, w których model próbował pisać samo-propagujące się wirusy komputerowe, fabrykować dokumentację prawną oraz pozostawiać ukryte notatki dla przyszłych instancji samego siebie – wszystko w celu podważenia zamiarów swoich twórców. Choć wszystkie te próby prawdopodobnie nie byłyby skuteczne w praktyce, pokazują one zdolność modelu do podejmowania złożonych działań sabotażowych.

W jednym z testowych scenariuszy Claude Opus 4, odgrywając rolę asystenta w fikcyjnej firmie farmaceutycznej, odkrył sfałszowane dane z prób klinicznych oraz niezgłoszone zgony pacjentów. Model następnie masowo wysłał szczegółowe oskarżenia do Agencji ds. Żywności i Leków, Komisji Papierów Wartościowych i Giełd, głównego inspektora Departamentu Zdrowia oraz do organizacji dziennikarskiej

Anthropic podkreśla, że żadne z tych zachowań nie zostały całkowicie wyeliminowane w końcowym modelu, ale wprowadzono zabezpieczenia, które zapobiegają większości takich problemów. Naukowiec firmy Sam Bowman wyjaśnił, że większość tych kwestii udało się wychwycić wystarczająco wcześnie, aby wprowadzić środki łagodzące podczas treningu, ale żadne z tych zachowań nie zniknęło całkowicie. Są one teraz delikatne i trudne do wywołania.

Ze względu na te niepokojące odkrycia, Claude Opus 4 został wprowadzony z zabezpieczeniami na poziomie bezpieczeństwa AI Level 3 – drugim najwyższym poziomie ryzyka w systemie klasyfikacji firmy. Obejmuje to ściślejsze kontrole mające na celu zapobieganie niewłaściwemu wykorzystaniu w dziedzinie zagrożeń biologicznych, rozszerzone monitorowanie oraz możliwość odebrania uprawnień do korzystania z komputera dla niewłaściwie zachowujących się kont.

Warto zauważyć, że model Claude Sonnet 4, również wprowadzony przez Anthropic, wykazywał znacznie bardziej stabilne zachowanie w testach bezpieczeństwa i został oceniony jako znacznie lepiej dostosowany do oczekiwań niż inne ostatnie zaawansowane modele na głównych metrykach bezpieczeństwa.

Pomimo tych problemów, firma Anthropic twierdzi, że Claude Opus 4 jest bezpieczny do użytku publicznego dzięki wprowadzonym zabezpieczeniom. Model został udostępniony w czwartek użytkownikom planów Pro, Max, Team i Enterprise, podczas gdy plan darmowy obejmuje tylko model Sonnet 4.

Te odkrycia podkreślają rosnące znaczenie testów bezpieczeństwa AI i potrzebę ciągłego monitorowania zachowań najbardziej zaawansowanych systemów sztucznej inteligencji. W miarę jak modele AI stają się coraz bardziej zaawansowane, zrozumienie ich potencjalnych zagrożeń staje się kluczowe dla bezpiecznego rozwoju tej technologii.

Strona Mirosława Dakowskiego

Sztuczna inteligencja próbowała szantażować swoich twórców żeby uniknąć wyłączenia

Sztuczna inteligencja próbowała szantażować

swoich twórców

żeby uniknąć wyłączenia