Ir para o conteúdo principal
Voltar para Explorar

Qwen: Qwen3 VL 8B Instruct

Alibaba·Lançado em 2025-10-14
Open Source8B256K ctxApache 2.0Multimodal

Sobre

Qwen3-VL-8B-Instruct is a multimodal vision-language model from the Qwen3-VL series, built for high-fidelity understanding and reasoning across text, images, and video. It features improved multimodal fusion with Interleaved-MRoPE for long-horizon...

Preços

Entrada

$0.08

por 1M tokens

Saída

$0.50

por 1M tokens

Combinado

$0.18

por 1M tokens

Mais barato que 71% dos modelos. Preço mediano é $0.54/1M tokens.

Calculadora de Custo

Tokens por dia1M
100K100M

Diário

$0.18

Mensal

$5.55

vs. Modelos Similares

Qwen3 4B (Reasoning)Q:0.0
$0.40+115%
Llama 3.1 Instruct 405BQ:+0.1
$3.69+1894%
Claude 3.5 Sonnet (June '24)Q:-0.1
$6.00+3143%
Llama 3.3 Instruct 70BQ:+0.2
$0.61+231%

Desempenho

143

tokens/seg

Mais rápido que 70% dos modelos

0.94

segundos

Mais rápido que 58% dos modelos

0.94

segundos

Mais rápido que 71% dos modelos

Mediana do Mercado

94 tok/s

51% mais rápido

TTFT Mediano

1.11s

15% mais rápido

Vazão/Dólar

771

tok/s por $/1M

Comparação de Velocidade

Sarvam M (Reasoning)
143 tok/s-0%
GPT-5 nano (medium)
142 tok/s-0%
Google: Gemini 2.5 Pro
142 tok/s-0%

Janela de Contexto

256K

tokens

Maior que 58% dos modelos

Saída Máxima

33K

tokens

13% do contexto

Benchmarks

MMLU-Pro
68.6%
GPQA Diamond
42.7%
HLE
2.9%
LiveCodeBench
33.2%
SciCode
17.4%
TerminalBench Hard
2.3%
MATH-500Não avaliado
AIMENão avaliado
AIME 2025
27.3%
IFBench
32.3%
Long Context Recall
15.3%
Tau2
29.2%
Média do MercadoMelhor Score
apache-2.08BGGUF / GPTQ / AWQ
Downloads

5.2M

Curtidas

975

VRAM (FP16)

8-16 GB

GPU

RTX 4070 / M2 Pro

Comparação Rápida

Modelos Similares

Comparar todos os 7 modelos