Archiwa bezpieczeństwa

Anthropic Implements AI Safety Level 3 Protocols for Enhanced Security

Anthropic wdraża protokoły AI Safety Level 3 w celu zwiększenia bezpieczeństwa

31 października, 2025 by admin

Jessie A Ellis
31 Oct 2025 11:40

Anthropic aktywował standardy AI Safety Level 3 wraz z wprowadzeniem Claude Opus 4, aby wzmocnić środki bezpieczeństwa i wdrażania, szczególnie w przypadku zagrożeń CBRN.

Anthropic, wiodąca firma zajmująca się badaniami nad sztuczną inteligencją, ogłosiła aktywację swoich standardów wdrażania i bezpieczeństwa AI Safety Level 3 (ASL-3). Posunięcie to jest częścią polityki odpowiedzialnego skalowania (RSP) firmy i zbiega się z uruchomieniem Claude Opus 4, powiedział Anthropic. Anthropic.

Zwiększone środki bezpieczeństwa

Standard bezpieczeństwa ASL-3 wprowadza zaawansowane wewnętrzne środki bezpieczeństwa, aby zapobiec kradzieży wzorców masy, które mają kluczowe znaczenie dla inteligencji i zdolności sztucznej inteligencji. W szczególności środki te mają na celu przeciwdziałanie zagrożeniom ze strony zaawansowanych podmiotów niepaństwowych. Standardy wdrażania mają na celu zmniejszenie ryzyka niewłaściwego wykorzystania SI do opracowywania lub pozyskiwania broni chemicznej, biologicznej, radiologicznej i jądrowej (CBRN).

Proaktywne wdrażanie

Chociaż nie ustalono jednoznacznie, że Claude Opus 4 wymaga ochrony ASL-3, decyzja o wdrożeniu tych środków została podjęta proaktywnie. Ten środek ostrożności pozwala firmie Anthropic testować i udoskonalać swoje protokoły bezpieczeństwa w odpowiedzi na zmieniające się możliwości modeli sztucznej inteligencji. Firma wykluczyła potrzebę stosowania standardów ASL-4 dla Claude Opus 4 i ASL-3 dla Claude Sonnet 4.

Koncentracja na wdrożeniu i bezpieczeństwie

Środki wdrożeniowe ASL-3 są specjalnie dostosowane, aby uniemożliwić modelowi wspomaganie zadań związanych z CBRN. Środki te obejmują ograniczenie “uniwersalnych jailbreaków”, które są systematycznymi atakami omijającymi zabezpieczenia w celu wydobycia poufnych informacji. Podejście Anthropic obejmuje uczynienie systemu bardziej odpornym na jailbreaki, wykrywanie ich, gdy się pojawią i iteracyjne ulepszanie zabezpieczeń.

Kontrole bezpieczeństwa koncentrują się na ochronie wag modeli za pomocą ponad 100 różnych środków bezpieczeństwa, w tym dwustronnej autoryzacji dostępu i ulepszonych protokołów kontroli zmian. Unikalnym aspektem tych kontroli jest wdrożenie kontroli przepustowości wyjścia, które ograniczają przepływ danych z bezpiecznych środowisk, aby zapobiec nieautoryzowanemu dostępowi do wag modeli.

Ciągłe doskonalenie

Anthropic podkreśla, że wdrożenie standardów ASL-3 jest krokiem w kierunku ciągłego doskonalenia bezpieczeństwa sztucznej inteligencji. Firma nadal ocenia możliwości Claude Opus 4 i może dostosować swoje środki bezpieczeństwa w oparciu o nowe spostrzeżenia i krajobrazy zagrożeń. Współpracuje z innymi interesariuszami z branży sztucznej inteligencji, rządem i społeczeństwem obywatelskim w celu ulepszenia tych środków ochronnych.

Kompleksowy raport firmy Anthropic zawiera więcej szczegółów na temat uzasadnienia i specyfiki tych nowo wdrożonych środków i ma służyć jako źródło informacji dla innych organizacji w sektorze sztucznej inteligencji.

Źródło obrazu: Shutterstock

OpenAI Enhances GPT-5 for Sensitive Conversations with New Safety Measures

Altcoin

OpenAI ulepsza GPT-5 dla wrażliwych połączeń dzięki nowym środkom bezpieczeństwa

27 października, 2025 by admin

Jessie A Ellis
27 Oct 2025 23:15

OpenAI wydało dodatek do mapy systemu GPT-5, pokazujący ulepszenia w obsłudze wrażliwych połączeń z ulepszonymi testami bezpieczeństwa.

OpenAI ogłosiło znaczące ulepszenia GPT-5, mające na celu poprawę zdolności modelu do obsługi wrażliwych połączeń. Aktualizacja ta, wyszczególniona w najnowszym dodatku do mapy systemu, podkreśla postępy w zakresie zależności emocjonalnej, zdrowia psychicznego i odporności na jailbreaki, powiedział OpenAI.

Postępy w zakresie zdrowia emocjonalnego i psychicznego

Aby wzmocnić wrażliwość modelu, OpenAI współpracowało z ponad 170 ekspertami w dziedzinie zdrowia psychicznego, aby udoskonalić zdolność GPT-5 do rozpoznawania sygnałów niepokoju i udzielania odpowiedzi wspierających. Celem ulepszeń jest zmniejszenie liczby nieadekwatnych odpowiedzi o 65-80%, zwiększając niezawodność modelu w interakcjach naładowanych emocjonalnie.

Porównania porównawcze i aktualizacje systemu

Dodatek zawiera analizę porównawczą między wersją GPT-5 z 15 sierpnia, znaną również jako GPT-5 Instant, a zaktualizowanym modelem uruchomionym 3 października. Przeglądy te są częścią ciągłego zaangażowania OpenAI w zapewnianie bezpieczeństwa sztucznej inteligencji i standardów etycznych.

Bieżące wysiłki na rzecz bezpieczeństwa AI

OpenAI aktywnie wzmacnia mechanizmy bezpieczeństwa sztucznej inteligencji. Wraz z wdrożeniem ostatniej aktualizacji, organizacja dąży do lepszego dostosowania odpowiedzi GPT-5 do rzeczywistych systemów wsparcia, zwiększając doświadczenie użytkownika i zaufanie.

Więcej informacji można znaleźć na oficjalnej stronie Ogłoszenie OpenAI.

Obraz źródłowy: Shutterstock

bezpieczeństwa dla dzięki GPT5 nowym OpenAI połączeń środkom ulepsza wrażliwych

P	W	Ś	C	P	S	N
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Tag: bezpieczeństwa