Loading...
Loading...
Qwen3-VL-8B-Instruct is a multimodal vision-language model from the Qwen3-VL series, built for high-fidelity understanding and reasoning across text, images, and video. It features improved multimodal fusion with Interleaved-MRoPE for long-horizon temporal reasoning, DeepStack for fine-grained visual-text alignment, and text-timestamp alignment for precise event localization. The model supports a native 256K-token context window, extensible to 1M tokens, and handles both static and dynamic media inputs for tasks like document parsing, visual question answering, spatial reasoning, and GUI control. It achieves text understanding comparable to leading LLMs while expanding OCR coverage to 32 languages and enhancing robustness under varied visual conditions.
Índice de Qualidade
14.3
284th de 444
Top 64%
Índice de Código
7.3
294th de 354
Top 83%
Índice de Matemática
27.3
189th de 268
Top 71%
Preço/1M
$0.31
345th mais barato
3% acima da mediana
Top 51%
Velocidade
139 tok/s
Top 15%
TTFT
1.07s
Janela de Contexto
131K
145th maior
Top 63%
Entrada
$0.18
por 1M tokens
Saída
$0.70
por 1M tokens
Combinado
$0.31
por 1M tokens
Mais barato que 49% dos modelos. Preço mediano é $0.30/1M tokens.
Diário
$0.31
Mensal
$9.30
139
tokens/seg
Mais rápido que 85% dos modelos
1.07
segundos
Mais rápido que 26% dos modelos
1.07
segundos
Mais rápido que 37% dos modelos
Mediana do Mercado
45 tok/s
207% mais rápido
TTFT Mediano
0.42s
156% mais lento
Vazão/Dólar
450
tok/s por $/1M
Comparação de Velocidade
Janela de Contexto
131K
tokens
Maior que 37% dos modelos
Saída Máxima
33K
tokens
25% do contexto
7.7M
835
8-16 GB
RTX 4070 / M2 Pro