Loading...
Loading...
Qwen3-VL-30B-A3B-Instruct is a multimodal model that unifies strong text generation with visual understanding for images and videos. Its Instruct variant optimizes instruction-following for general multimodal tasks. It excels in perception of real-world/synthetic categories, 2D/3D spatial grounding, and long-form visual comprehension, achieving competitive multimodal benchmark results. For agentic use, it handles multi-image multi-turn instructions, video timeline alignments, GUI automation, and visual coding from sketches to debugged UI. Text performance matches flagship Qwen3 models, suiting document AI, OCR, UI assistance, spatial tasks, and agent research.
Índice de Qualidade
16.1
243rd de 444
Top 55%
Índice de Código
14.3
204th de 354
Top 58%
Índice de Matemática
72.3
89th de 268
Top 34%
Preço/1M
$0.35
352nd mais barato
17% acima da mediana
Top 53%
Velocidade
118 tok/s
Top 22%
TTFT
0.98s
Janela de Contexto
131K
145th maior
Top 63%
Entrada
$0.20
por 1M tokens
Saída
$0.80
por 1M tokens
Combinado
$0.35
por 1M tokens
Mais barato que 47% dos modelos. Preço mediano é $0.30/1M tokens.
Diário
$0.35
Mensal
$10.50
118
tokens/seg
Mais rápido que 78% dos modelos
0.98
segundos
Mais rápido que 31% dos modelos
0.98
segundos
Mais rápido que 39% dos modelos
Mediana do Mercado
45 tok/s
161% mais rápido
TTFT Mediano
0.42s
134% mais lento
Vazão/Dólar
338
tok/s por $/1M
Comparação de Velocidade
Janela de Contexto
131K
tokens
Maior que 37% dos modelos
Saída Máxima
33K
tokens
25% do contexto
4.7M
552
24-48 GB
A6000 / M3 Ultra