Sztuczna inteligencja Qwen firmy Alibaba pokonuje globalnych konkurentów w testach matematycznych
TLDR;
- Qwen3-Max-Thinking firmy Alibaba osiągnął doskonałe wyniki w AIME i HMMT, co oznacza pierwszy w Chinach bezbłędny wynik w matematyce AI.
- GPT-5 Pro firmy OpenAI również odnotował doskonałe wyniki, wyznaczając nową rywalizację Wschód-Zachód w rozumowaniu sztucznej inteligencji.
- Nadal istnieją obawy dotyczące weryfikacji, ponieważ wyniki Alibaby nie zostały zweryfikowane przez strony trzecie ani dowody testów zamkniętych.
- Dostęp do API otwiera drzwi dla deweloperów i inwestorów, z potencjalnymi korzyściami w zakresie kosztów i wydajności na rynkach Azji i Pacyfiku.
Dział sztucznej inteligencji Alibaba zaprezentował Qwen3-Max-Thinking, zaawansowany model rozumowania, który zadziwił obserwatorów, zdobywając doskonałe 100% punktów w dwóch najtrudniejszych konkursach matematycznych na świecie, American Invitational Mathematics Examination (AIME) i Harvard-MIT Mathematics Tournament (HMMT).
Jest to ważny kamień milowy dla chińskiej branży sztucznej inteligencji. Podobno po raz pierwszy model opracowany w Chinach dorównał lub przewyższył zachodnie benchmarki w testach akademickich, które wymagają dużej ilości rozumowania.
The ogłoszenie stawia wysiłki Alibaby w zakresie sztucznej inteligencji ramię w ramię z GPT-5 Pro firmy OpenAI, która również odnotowała bezbłędne wyniki w tych samych konkursach na początku tego roku.
Skok dla chińskich ambicji AI
Według Alibaby, Qwen3-Max-Thinking jest zbudowany na bazie Qwen3-Max, największego modelu sztucznej inteligencji firmy z ponad bilionem parametrów. Architektura Qwen3-Max, wydana pod koniec września, stanowi najśmielszy krok Alibaby w kierunku stworzenia uniwersalnych modeli rozumowania, które mogą konkurować globalnie w złożonych zadaniach rozwiązywania problemów.
Matematyczne zwycięstwa są zarówno symboliczne, jak i techniczne. Przez lata elitarne zawody, takie jak AIME i HMMT, były wykorzystywane jako nieoficjalne punkty odniesienia do oceny głębokości rozumowania i zdolności abstrakcyjnego myślenia dużych modeli językowych (LLM). Doskonała dokładność w takich wydarzeniach wskazuje, że Qwen3-Max-Thinking wypełnia lukę w wydajności systemów opracowanych na Zachodzie.
Pozostają jednak pytania dotyczące przejrzystości i weryfikacji. Twierdzenia Alibaby, choć trafiają na pierwsze strony gazet, nie mają potwierdzenia ze strony osób trzecich. Ani AIME, ani HMMT nie prowadzą publicznych rankingów modeli sztucznej inteligencji i nie przeprowadzono jeszcze niezależnego audytu w celu zweryfikowania, czy wyniki zostały uzyskane w warunkach zamkniętej księgi, bez dostępu do Internetu, co jest kluczowym czynnikiem przy określaniu autentyczności.
Luki w weryfikacji prowadzą do sceptycyzmu
Pomimo entuzjazmu, eksperci wzywają do ostrożności. Brak publicznej weryfikacji oznacza, że nie jest jasne, czy Qwen3-Max-Thinking rzeczywiście osiągnął 100% dokładności w standardowych warunkach.
Niezweryfikowane wyniki stały się powtarzającym się problemem w testach porównawczych sztucznej inteligencji, ponieważ firmy starają się twierdzić, że są lepsze w dziedzinach takich jak rozumowanie, kodowanie i matematyka.
Co więcej, nie jest jasne, czy użyto wersji 2025 problemów konkursowych i czy sztuczna inteligencja była już narażona na podobne dane podczas treningu. Bez kontroli skażenia, gwarancji, że model nie widział wcześniej danych testowych, doskonałe wyniki są trudne do zweryfikowania.
Chociaż ogłoszenie Alibaby wywołało podekscytowanie, krytycy ostrzegają, że bez powtarzalności zwycięstwo może pozostać symboliczne, a nie naukowe.
Deweloperzy i inwestorzy dostrzegają potencjał API
Strategia sztucznej inteligencji Alibaby ma nie tylko prawo do chwalenia się, ale także realne implikacje komercyjne. Firma niedawno otworzyła dostęp API do Qwen3-Max-Thinking i zaprasza programistów do testowania jej możliwości rozumowania w rzeczywistych aplikacjach.
Dla zespołów zajmujących się oprogramowaniem i danymi otwiera to nowe możliwości routingu kosztów i wydajności, dynamicznie wybierając między dostawcami sztucznej inteligencji na podstawie ceny, dokładności lub opóźnień. Deweloperzy w regionie Azji i Pacyfiku, zwłaszcza ci, którzy szukają lokalnych opcji infrastruktury AI, mogą uznać ekosystem Qwen za atrakcyjny, jeśli oferuje konkurencyjne ceny i niezawodne wsparcie regionalne poza Singapurem.
Inwestorzy również bacznie się temu przyglądają. Jeśli Qwen3-Max-Thinking poradzi sobie ze złożonymi zadaniami rozumowania, pozostając jednocześnie przystępnym cenowo, Alibaba może wyrzeźbić niszę wśród deweloperów biznesowych i startupów AI poszukujących alternatywy dla dostawców z USA. Sukces takich modeli może oznaczać nową równowagę w globalnej infrastrukturze sztucznej inteligencji, z chińskimi modelami konkurującymi lub nawet przewyższającymi zachodnie modele w określonych zadaniach.