Loading...
Loading...
GLM-4.6V is a large multimodal model designed for high-fidelity visual understanding and long-context reasoning across images, documents, and mixed media. It supports up to 128K tokens, processes complex page layouts and charts directly as visual inputs, and integrates native multimodal function calling to connect perception with downstream tool execution. The model also enables interleaved image-text generation and UI reconstruction workflows, including screenshot-to-HTML synthesis and iterative visual editing.
Índice de Qualidade
17.1
230th de 444
Top 52%
Índice de Código
11.1
247th de 354
Top 70%
Índice de Matemática
26.3
193rd de 268
Top 72%
Preço/1M
$0.45
383rd mais barato
50% acima da mediana
Top 56%
Velocidade
20 tok/s
Top 60%
TTFT
5.89s
Janela de Contexto
131K
145th maior
Top 63%
Entrada
$0.30
por 1M tokens
Saída
$0.90
por 1M tokens
Combinado
$0.45
por 1M tokens
Mais barato que 44% dos modelos. Preço mediano é $0.30/1M tokens.
Diário
$0.45
Mensal
$13.50
20
tokens/seg
Mais rápido que 40% dos modelos
5.89
segundos
Mais rápido que 10% dos modelos
5.89
segundos
Mais rápido que 26% dos modelos
Mediana do Mercado
45 tok/s
55% mais lento
TTFT Mediano
0.42s
1308% mais lento
Vazão/Dólar
45
tok/s por $/1M
Comparação de Velocidade
Janela de Contexto
131K
tokens
Maior que 37% dos modelos
Saída Máxima
131K
tokens
100% do contexto