Anthropic wdraża protokoły AI Safety Level 3 w celu zwiększenia bezpieczeństwa
Jessie A Ellis
31 Oct 2025 11:40
Anthropic aktywował standardy AI Safety Level 3 wraz z wprowadzeniem Claude Opus 4, aby wzmocnić środki bezpieczeństwa i wdrażania, szczególnie w przypadku zagrożeń CBRN.
Anthropic, wiodąca firma zajmująca się badaniami nad sztuczną inteligencją, ogłosiła aktywację swoich standardów wdrażania i bezpieczeństwa AI Safety Level 3 (ASL-3). Posunięcie to jest częścią polityki odpowiedzialnego skalowania (RSP) firmy i zbiega się z uruchomieniem Claude Opus 4, powiedział Anthropic. Anthropic.
Zwiększone środki bezpieczeństwa
Standard bezpieczeństwa ASL-3 wprowadza zaawansowane wewnętrzne środki bezpieczeństwa, aby zapobiec kradzieży wzorców masy, które mają kluczowe znaczenie dla inteligencji i zdolności sztucznej inteligencji. W szczególności środki te mają na celu przeciwdziałanie zagrożeniom ze strony zaawansowanych podmiotów niepaństwowych. Standardy wdrażania mają na celu zmniejszenie ryzyka niewłaściwego wykorzystania SI do opracowywania lub pozyskiwania broni chemicznej, biologicznej, radiologicznej i jądrowej (CBRN).
Proaktywne wdrażanie
Chociaż nie ustalono jednoznacznie, że Claude Opus 4 wymaga ochrony ASL-3, decyzja o wdrożeniu tych środków została podjęta proaktywnie. Ten środek ostrożności pozwala firmie Anthropic testować i udoskonalać swoje protokoły bezpieczeństwa w odpowiedzi na zmieniające się możliwości modeli sztucznej inteligencji. Firma wykluczyła potrzebę stosowania standardów ASL-4 dla Claude Opus 4 i ASL-3 dla Claude Sonnet 4.
Koncentracja na wdrożeniu i bezpieczeństwie
Środki wdrożeniowe ASL-3 są specjalnie dostosowane, aby uniemożliwić modelowi wspomaganie zadań związanych z CBRN. Środki te obejmują ograniczenie “uniwersalnych jailbreaków”, które są systematycznymi atakami omijającymi zabezpieczenia w celu wydobycia poufnych informacji. Podejście Anthropic obejmuje uczynienie systemu bardziej odpornym na jailbreaki, wykrywanie ich, gdy się pojawią i iteracyjne ulepszanie zabezpieczeń.
Kontrole bezpieczeństwa koncentrują się na ochronie wag modeli za pomocą ponad 100 różnych środków bezpieczeństwa, w tym dwustronnej autoryzacji dostępu i ulepszonych protokołów kontroli zmian. Unikalnym aspektem tych kontroli jest wdrożenie kontroli przepustowości wyjścia, które ograniczają przepływ danych z bezpiecznych środowisk, aby zapobiec nieautoryzowanemu dostępowi do wag modeli.
Ciągłe doskonalenie
Anthropic podkreśla, że wdrożenie standardów ASL-3 jest krokiem w kierunku ciągłego doskonalenia bezpieczeństwa sztucznej inteligencji. Firma nadal ocenia możliwości Claude Opus 4 i może dostosować swoje środki bezpieczeństwa w oparciu o nowe spostrzeżenia i krajobrazy zagrożeń. Współpracuje z innymi interesariuszami z branży sztucznej inteligencji, rządem i społeczeństwem obywatelskim w celu ulepszenia tych środków ochronnych.
Kompleksowy raport firmy Anthropic zawiera więcej szczegółów na temat uzasadnienia i specyfiki tych nowo wdrożonych środków i ma służyć jako źródło informacji dla innych organizacji w sektorze sztucznej inteligencji.
Źródło obrazu: Shutterstock