Anthropic wdraża protokoły AI Safety Level 3 w celu zwiększenia bezpieczeństwa
Jessie A Ellis
31 Oct 2025 11:40
Anthropic aktywował standardy AI Safety Level 3 wraz z wprowadzeniem Claude Opus 4, aby wzmocnić środki bezpieczeństwa i wdrażania, szczególnie w przypadku zagrożeń CBRN.
Anthropic, wiodąca firma zajmująca się badaniami nad sztuczną inteligencją, ogłosiła aktywację swoich standardów wdrażania i bezpieczeństwa AI Safety Level 3 (ASL-3). Posunięcie to jest częścią polityki odpowiedzialnego skalowania (RSP) firmy i zbiega się z uruchomieniem Claude Opus 4, powiedział Anthropic. Anthropic.
Zwiększone środki bezpieczeństwa
Standard bezpieczeństwa ASL-3 wprowadza zaawansowane wewnętrzne środki bezpieczeństwa, aby zapobiec kradzieży wzorców masy, które mają kluczowe znaczenie dla inteligencji i zdolności sztucznej inteligencji. W szczególności środki te mają na celu przeciwdziałanie zagrożeniom ze strony zaawansowanych podmiotów niepaństwowych. Standardy wdrażania mają na celu zmniejszenie ryzyka niewłaściwego wykorzystania SI do opracowywania lub pozyskiwania broni chemicznej, biologicznej, radiologicznej i jądrowej (CBRN).
Proaktywne wdrażanie
Chociaż nie ustalono jednoznacznie, że Claude Opus 4 wymaga ochrony ASL-3, decyzja o wdrożeniu tych środków została podjęta proaktywnie. Ten środek ostrożności pozwala firmie Anthropic testować i udoskonalać swoje protokoły bezpieczeństwa w odpowiedzi na zmieniające się możliwości modeli sztucznej inteligencji. Firma wykluczyła potrzebę stosowania standardów ASL-4 dla Claude Opus 4 i ASL-3 dla Claude Sonnet 4.
Koncentracja na wdrożeniu i bezpieczeństwie
Środki wdrożeniowe ASL-3 są specjalnie dostosowane, aby uniemożliwić modelowi wspomaganie zadań związanych z CBRN. Środki te obejmują ograniczenie “uniwersalnych jailbreaków”, które są systematycznymi atakami omijającymi zabezpieczenia w celu wydobycia poufnych informacji. Podejście Anthropic obejmuje uczynienie systemu bardziej odpornym na jailbreaki, wykrywanie ich, gdy się pojawią i iteracyjne ulepszanie zabezpieczeń.
Kontrole bezpieczeństwa koncentrują się na ochronie wag modeli za pomocą ponad 100 różnych środków bezpieczeństwa, w tym dwustronnej autoryzacji dostępu i ulepszonych protokołów kontroli zmian. Unikalnym aspektem tych kontroli jest wdrożenie kontroli przepustowości wyjścia, które ograniczają przepływ danych z bezpiecznych środowisk, aby zapobiec nieautoryzowanemu dostępowi do wag modeli.
Ciągłe doskonalenie
Anthropic podkreśla, że wdrożenie standardów ASL-3 jest krokiem w kierunku ciągłego doskonalenia bezpieczeństwa sztucznej inteligencji. Firma nadal ocenia możliwości Claude Opus 4 i może dostosować swoje środki bezpieczeństwa w oparciu o nowe spostrzeżenia i krajobrazy zagrożeń. Współpracuje z innymi interesariuszami z branży sztucznej inteligencji, rządem i społeczeństwem obywatelskim w celu ulepszenia tych środków ochronnych.
Kompleksowy raport firmy Anthropic zawiera więcej szczegółów na temat uzasadnienia i specyfiki tych nowo wdrożonych środków i ma służyć jako źródło informacji dla innych organizacji w sektorze sztucznej inteligencji.
Źródło obrazu: Shutterstock
OpenAI ulepsza GPT-5 dla wrażliwych połączeń dzięki nowym środkom bezpieczeństwa
Jessie A Ellis
27 Oct 2025 23:15
OpenAI wydało dodatek do mapy systemu GPT-5, pokazujący ulepszenia w obsłudze wrażliwych połączeń z ulepszonymi testami bezpieczeństwa.
OpenAI ogłosiło znaczące ulepszenia GPT-5, mające na celu poprawę zdolności modelu do obsługi wrażliwych połączeń. Aktualizacja ta, wyszczególniona w najnowszym dodatku do mapy systemu, podkreśla postępy w zakresie zależności emocjonalnej, zdrowia psychicznego i odporności na jailbreaki, powiedział OpenAI.
Postępy w zakresie zdrowia emocjonalnego i psychicznego
Aby wzmocnić wrażliwość modelu, OpenAI współpracowało z ponad 170 ekspertami w dziedzinie zdrowia psychicznego, aby udoskonalić zdolność GPT-5 do rozpoznawania sygnałów niepokoju i udzielania odpowiedzi wspierających. Celem ulepszeń jest zmniejszenie liczby nieadekwatnych odpowiedzi o 65-80%, zwiększając niezawodność modelu w interakcjach naładowanych emocjonalnie.
Porównania porównawcze i aktualizacje systemu
Dodatek zawiera analizę porównawczą między wersją GPT-5 z 15 sierpnia, znaną również jako GPT-5 Instant, a zaktualizowanym modelem uruchomionym 3 października. Przeglądy te są częścią ciągłego zaangażowania OpenAI w zapewnianie bezpieczeństwa sztucznej inteligencji i standardów etycznych.
Bieżące wysiłki na rzecz bezpieczeństwa AI
OpenAI aktywnie wzmacnia mechanizmy bezpieczeństwa sztucznej inteligencji. Wraz z wdrożeniem ostatniej aktualizacji, organizacja dąży do lepszego dostosowania odpowiedzi GPT-5 do rzeczywistych systemów wsparcia, zwiększając doświadczenie użytkownika i zaufanie.
Więcej informacji można znaleźć na oficjalnej stronie Ogłoszenie OpenAI.
Obraz źródłowy: Shutterstock