Moonshot Ai’s Kimi K2 przewyższa GPT-4 w kluczowych testach porównawczych-i jest bezpłatny
Chcesz mądrzejsze spostrzeżenia w swojej skrzynce odbiorczej? Zapisz się na nasze cotygodniowe biuletyny, aby uzyskać tylko to, co ważne dla liderów AI, danych i bezpieczeństwa. Subskrybuj teraz
Księżyc Aichiński startup sztucznej inteligencji za popularnym Kimi Chatbotwydał w piątek model języka open source, który bezpośrednio kwestionuje zastrzeżone systemy z Openai I Antropiczny Przy szczególnie dobrej wydajności w zakresie kodowania i zadań agentów autonomicznych.
Nowy model, zwany KIMI K2cechy 1 biliona parametrów całkowitych z 32 miliardami parametrów aktywowanych w architekturze mieszanki ekspertów. Firma wypuszcza dwie wersje: model fundamentu dla naukowców i programistów oraz wariant dostrojony instruktażowo zoptymalizowany pod kątem aplikacji czatu i autonomicznych agentów.
? Witam, Kimi K2! Model agencyjny open source!
? 1T Model Aktywnego MOE / 32B 32B
? SOTA na SWE weryfikowanym, tau2 i Acebench wśród otwartych modeli
?Strong in coding and agentic tasks
? Multimodal & Thought Mode nie jest na razie obsługiwane
Z KIMI K2, zaawansowana inteligencja agencyjna… pic.twitter.com/plrqnrg9jl
– Kimi.ai (@kimi_moonshot) 11 lipca 2025 r
„KIMI K2 nie tylko odpowiada; działa”, stwierdziła firma w swoim Blog ogłoszenia. „Dzięki KIMI K2 zaawansowana inteligencja agencyjna jest bardziej otwarta i dostępna niż kiedykolwiek. Nie możemy się doczekać, aby zobaczyć, co zbudujesz”.
Wyróżniającą się funkcją modelu jest optymalizacja możliwości „agencyjnych”-możliwość autonomicznego korzystania z narzędzi, pisania i wykonywania kodu oraz wypełniania złożonych wieloetapowych zadań bez interwencji człowieka. W testach porównawczych, KIMI K2 osiągnął 65,8% dokładności SWE-Bench zweryfikowanytrudny punkt odniesienia inżynierii oprogramowania, przewyższający większość alternatywnych open source i pasuje do niektórych zastrzeżonych modeli.
David spotyka Goliath: Jak Kimi K2 przewyższa modele Doliny Krzemowej Doliny Krzemowej
Wskaźniki wydajności opowiadają historię, która powinna sprawić, że kadra kierownicza powinna Openai I Antropiczny zwracać uwagę. KIMI K2-instruct Nie tylko konkuruje z dużymi graczami – systematycznie przewyższa ich w zadaniach, które najważniejsze dla klientów korporacyjnych.
NA LiveCodeBenchprawdopodobnie najbardziej realistyczny dostępny punkt odniesienia kodowania, KIMI K2 osiągnął 53,7% dokładności, decydująco pokonując Deepseek-v346,9% i GPT-4.144,7%. Bardziej uderzające: uzyskało 97,4% Math-500 W porównaniu z 92,4%GPT-4.1 sugerując, że strzały księżyca złamało coś fundamentalnego w rozumowaniu matematycznym, które wymykało się większymi, lepiej finansowanymi konkurentami.
Ale oto, czego testy porównawcze nie uchwycają: Księżyc Osiągając te wyniki dzięki modelu, który kosztuje ułamek tego, co operatorzy wydają na szkolenie i wnioskowanie. Podczas gdy Openai spala setki milionów na obliczeniach w celu przyrostowych ulepszeń, wydaje się, że księżyca znalazła bardziej wydajną ścieżkę do tego samego miejsca docelowego. To klasyczny dylemat innowatora rozgrywający się w czasie rzeczywistym – skąpy Outsider to nie tylko odpowiada występowi zasiedziałego, ale robią to lepiej, szybciej i tańsze.
Implikacje wykraczają poza zwykłe prawa do przechwalania się. Klienci korporacyjni czekają na systemy AI, które mogą faktycznie samodzielnie wypełnić złożone przepływy pracy, a nie tylko generować imponujące demo. Siła Kimi K2 na SWE-Bench zweryfikowany sugeruje, że może w końcu spełnić tę obietnicę.
Przełom MUONCLIP: Dlaczego ten optymalizator może przekształcić ekonomię szkoleniową AI
Pochowany w dokumentacji technicznej księżyca jest szczegółem, który może okazać się bardziej znaczący niż wyniki porównawcze modelu: ich rozwój Optymalizator MUONCLIPktóre umożliwiło stabilne szkolenie modelu parametrów bilionowych „z zerową niestabilnością treningu”.
To nie jest tylko osiągnięcie inżynierskie – potencjalnie jest to zmiana paradygmatu. Niestabilność szkolenia była ukrytym podatkiem od rozwoju modelu dużego języka, zmuszając firmy do ponownego uruchomienia drogich przebiegów szkoleniowych, wdrażania kosztownych środków bezpieczeństwa i przyjęcia nieoptymalnych wyników, aby uniknąć awarii. Rozwiązanie Moonsshot bezpośrednio dotyczy eksplodowania logitów uwagi poprzez przeskalowanie macierzy masy w zapytaniach i kluczowych projekcjach, zasadniczo rozwiązując problem u jego źródła, a nie stosując pomocy pasmowe w dół rzeki.
Implikacje ekonomiczne są oszałamiające. Jeśli Muonclip okazuje się uogólnione – i Księżyc Sugeruje to – technika może znacznie zmniejszyć koszty obliczeniowe treningu dużych modeli. W branży, w której koszty szkolenia są mierzone w dziesiątkach milionów dolarów, nawet niewielkie wzrost wydajności przekładają się na korzyści konkurencyjne mierzone w kwaterach, a nie latach.
Co więcej, stanowi to fundamentalną rozbieżność w filozofii optymalizacji. Podczas gdy zachodnie laboratoria AI w dużej mierze zbiegły się w odmianach ADAMW, zakład Moonshot na warianty mionów sugerują, że badają naprawdę różne podejścia matematyczne do krajobrazu optymalizacji. Czasami najważniejsze innowacje nie pochodzą z skalowania istniejących technik, ale z całkowitego kwestionowania ich podstawowych założeń.
Open source jako konkurencyjna broń: Radykalna strategia cen księżyca jest skierowana do centrów zysków Big Tech
Decyzja księżyca o otwartym source KIMI K2 Chociaż jednocześnie oferowanie konkurencyjnego dostępu do API ujawnia wyrafinowane zrozumienie dynamiki rynku, które wykracza daleko poza altruistyczne zasady open source.
Przy 0,15 USD za milion tokenów wejściowych dla uderzeń pamięci podręcznej i 2,50 USD za milion tokenów wyjściowych, Księżyc wyceniuje agresywnie poniżej Openai I Antropiczny Oferując porównywalne – aw niektórych przypadkach lepsze – wydajność. Ale prawdziwym strategicznym masterstoke jest podwójna dostępność: przedsiębiorstwa mogą zacząć od interfejsu API w celu natychmiastowego wdrażania, a następnie migrują do samodzielnych wersji w celu optymalizacji kosztów lub wymagań dotyczących zgodności.
Stwarza to pułapkę dla obecnych dostawców. Jeśli pasują do ceny Moonshot, kompresują własne marginesy na najbardziej dochodowej linii produktów. Jeśli tego nie zrobią, ryzykują odejście klientów do modelu, który działa równie dobrze za ułamek kosztów. Tymczasem Moonshot buduje udział w rynku i przyjęcie ekosystemu za pośrednictwem obu kanałów jednocześnie.
Komponent open source nie jest organizacją charytatywną-jego pozyskiwanie klientów. Każdy programista, który pobiera i eksperymentuje z KIMI K2 staje się potencjalnym klientem przedsiębiorstw. Każda poprawa wniesiona przez społeczność zmniejsza własne koszty rozwoju księżyca. Jest to koło zamachowe, które wykorzystuje globalną społeczność programistów w celu przyspieszenia innowacji, jednocześnie budując konkurencyjne fosy, które są prawie niemożliwe dla zawodników z zamkniętymi źródłami.
Od demo do rzeczywistości: dlaczego możliwości agenta Kimi K2 sygnalizują koniec teatru Chatbot
Demonstracje Księżyc Udostępniane w mediach społecznościowych ujawniają coś bardziej znaczącego niż imponujące możliwości techniczne – pokazują, że AI w końcu ukończyło sztuczki Parlor do praktycznej użyteczności.
Rozważ przykład analizy wynagrodzeń: KIMI K2 Nie odpowiedział tylko na pytania dotyczące danych, autonomicznie wykonał 16 operacji Pythona w celu wygenerowania analizy statystycznej i interaktywnych wizualizacji. Demonstracja planowania koncertów w Londynie obejmowała 17 połączeń narzędziowych na wielu platformach – wyszukiwanie, kalendarz, e -mail, loty, zakwaterowanie i rezerwacje restauracji. To nie są wyselekcjonowane dema zaprojektowane, aby zaimponować; Są przykładami systemów AI, które faktycznie wypełniają złożone, wieloetapowe przepływy pracy, które pracownicy wiedzy wykonują codziennie.
Jest to filozoficzne przejście od obecnego pokolenia asystentów AI, którzy przodują w rozmowie, ale zmagają się z egzekucją. Podczas gdy konkurenci koncentrują się na tym, aby ich modele brzmiały bardziej ludzkimi, Księżyc priorytetowo stał się bardziej użyteczny. Rozróżnienie ma znaczenie, ponieważ przedsiębiorstwa nie potrzebują sztucznej inteligencji, która może przejść test Turinga – potrzebują AI, które mogą przejść test wydajności.
Prawdziwy przełom nie jest w żadnej możliwości, ale w bezproblemowej orkiestracji wielu narzędzi i usług. Poprzednie próby „Agent” AI wymagały obszernej szybkiej inżynierii, starannego projektu przepływu pracy i ciągłego nadzoru człowieka. KIMI K2 Wydaje się, że radzi sobie z ogólnymi ogólnymi rozkładem zadań, wyboru narzędzi i odzyskiwania błędów autonomicznie – różnica między wyrafinowanym kalkulatorem a prawdziwym asystentem myślenia.
Wielka konwergencja: kiedy modele open source w końcu złapały liderów
Wydanie Kimi K2 oznacza punkt fleksji, który obserwatorzy branży przewidywali, ale rzadko byli świadkami: moment, w którym możliwości AI open source naprawdę zbiegają się z zastrzeżonymi alternatywami.
W przeciwieństwie do poprzednich „zabójców GPT”, które doskonały się w wąskich domenach, jednocześnie niepowodzenie w praktycznych zastosowaniach, KIMI K2 wykazuje szerokie kompetencje w pełnym spektrum zadań, które definiują ogólną inteligencję. Pisze kod, rozwiązuje matematykę, używa narzędzi i uzupełnia złożone przepływy pracy-wszystkie jednocześnie dostępne do modyfikacji i samodzielnego wdrażania.
Ta konwergencja dochodzi do szczególnie wrażliwego momentu dla zasiedziałów AI. Openai skieruje się do montażu, aby uzasadnić to Wycena o wartości 300 miliardów dolarów podczas gdy antropijne walczy o różnicowanie Claude na coraz bardziej zatłoczonym rynku. Obie firmy zbudowały modele biznesowe oparte na utrzymaniu korzyści technologicznych, które sugeruje KIMI K2, może być efemeryczne.
Czas nie jest przypadkowy. Gdy architektury transformatorów dojrzewają i techniki szkoleniowe demokratyzują, korzyści konkurencyjne coraz częściej przenoszą się z surowej zdolności do wydajności wdrażania, optymalizacji kosztów i efektów ekosystemu. Księżyc Wydaje się, że intuicyjnie rozumie to przejście, pozycjonując KIMI K2 nie jako lepszy chatbot, ale jako bardziej praktyczny podstawa dla następnej generacji aplikacji AI.
Pytanie nie jest teraz, czy modele typu open source mogą dopasować się do zastrzeżonych-K2 K2 dowodzi, że już tak. Pytanie brzmi, czy zasiedziałowie mogą dostosować swoje modele biznesowe wystarczająco szybko, aby konkurować w świecie, w którym ich podstawowe zalety technologiczne nie są już możliwe do obrony. Na podstawie piątkowego wydania okres adaptacji stał się znacznie krótszy.
Codzienne spostrzeżenia w sprawach użycia biznesowej z VB codziennie
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma Cię objęty. Dajemy Ci wewnętrzną miarę o tym, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami dla maksymalnego ROI.
Dzięki za subskrypcję. Sprawdź więcej biuletyn VB tutaj.
Wystąpił błąd.
Leave a Reply