DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Artificial Analysis

Oberoende analys av AI-modeller och hostingleverantörer - välj den bästa modellen och API-leverantören för ditt användningsfall

Alibaba har släppt fyra nya Qwen3.5-modeller från 0,8B till 9B. 9B (Reasoning, 32 på Intelligence Index) är den mest intelligenta modellen under 10B parametrar, och 4B (Reasoning, 27) den mest intelligenta under 5B, men båda använder 200M+ outputtokens för att köra Intelligence Index @Alibaba_Qwen har utökat Qwen3.5-familjen med fyra mindre täta modeller: 9B (Reasoning, 32 på Intelligence Index), 4B (Reasoning, 27), 2B (Reasoning, 16) och 0.8B (Reasoning, 9). Dessa kompletterar de större modellerna 397B, 27B, 122B A10B och 35B A3B som släpptes tidigare denna månad. Alla modeller är Apache 2.0-licensierade, stödjer 262K-kontext, inkluderar inbyggt visionsstöd och använder samma hybrida tänkande/icke-tänkande metod som resten av Qwen3.5-familjen Viktiga benchmarkingresultat för resonemangsvarianterna: ➤ 9B och 4B är de mest intelligenta modellerna i sina respektive storleksklasser, före alla andra modeller under 10B-parametrar. Qwen3.5 9B (32) får ungefär dubbelt så många som nästa närmaste modeller under 10B: Falcon-H1R-7B (16) och NVIDIA Nemotron Nano 9B V2 (Reasoning, 15). Qwen3.5 4B (27) överträffar alla dessa trots att den har ungefär hälften av parametrarna. Alla fyra små Qwen3.5-modeller ligger på Pareto-gränsen för diagrammet Intelligens vs. Totala parametrar ➤ Qwen3.5-genereringen representerar en materiell intelligensökning jämfört med Qwen3 över alla modeller under 10 miljarder, med större vinster vid högre totala parameterantal. Jämförelse av resonemangsvarianter: Qwen3.5 9B (32) ligger 15 poäng före Qwen3 VL 8B (17), 4B (27) går 9 poäng över Qwen3 4B 2507 (18), 2B (16) ligger 3 poäng före Qwen3 1.7B (uppskattad 13), och 0,8B (9) går upp 2,5 poäng över Qwen3 0,6B (6,5). ➤ Alla fyra modeller använder 230–390 miljoner utdatatoken för att köra Intelligence Index, betydligt mer än både de större Qwen3.5-syskonen och Qwen3-föregångarna. Qwen3.5 2B använde ~390M utgångstoken, 4B använde ~240M, 0.8B använde ~230M och 9B använde ~260M. För kontext använde den mycket större Qwen3.5 27B 98M och flaggskeppet 397B 86M. Dessa tokenantal överstiger också de flesta frontier-modeller: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) och GLM-5 Reasoning (109M) ➤ AA-Allvetande är en relativ svaghet, med hallucinationsfrekvenser på 80–82 % för 4B och 9B. Qwen3.5 4B får -57 på AA-Omniscience med en hallucinationsfrekvens på 80 % och noggrannhet på 12,8 %. Qwen3.5 9B får -56 poäng med 82 % hallucinationer och 14,7 % träffsäkerhet. Dessa är marginellt bättre än sina Qwen3-föregångare (Qwen3 4B 2507: -61, 84 % hallucinationer, 12,7 % noggrannhet), med förbättringen främst driven av lägre hallucinationsfrekvenser snarare än högre noggrannhet. ➤ Qwen3.5 sub-10B-modellerna kombinerar hög intelligens med inhemsk syn i en skala som tidigare inte var tillgänglig. På MMMU-Pro (multimodal logik) får Qwen3,5 9B 69,2 % och 4B 65,4 %, före Qwen3 VL 8B (56,6 %), Qwen3 VL 4B (52,0 %) och Ministral 3 8B (46,0 %). Qwen3.5 0.8B får 25,8 %, vilket är anmärkningsvärt för en modell under 1B Övrig information: ➤ Kontextfönster: 262K tokens ➤ Licens: Apache 2.0 ➤ Kvantisering: Nativa vikter är BF16. Alibaba har inte släppt förstaparts GPTQ-Int4-kvantiseringar för dessa små modeller, men de har gjort det för de större modellerna i Qwen3.5-familjen som släppts tidigare (27B, 35B-A3B, 122B-A10B, 397B-A17B). I 4-bitars kvantisering är alla fyra modeller tillgängliga på konsumenthårdvara ➤ Tillgänglighet: Vid publiceringstillfället finns inga förstaparts- eller tredjeparts-serverlösa API:er som hostar dessa modeller

Topp

Rankning

Favoriter