Ir para o conteúdo principal

Metodologia

Fontes de Dados

O FindLLM agrega dados de múltiplas fontes confiáveis para fornecer uma visão abrangente do cenário de LLMs.

  • Artificial Analysis — benchmarks, scores de qualidade, métricas de velocidade e medições de tempo até o primeiro token.
  • OpenRouter — preços em tempo real, tamanhos de contexto, disponibilidade de provedores e metadados de modelos.
  • HuggingFace — downloads, scores de tendência, licenças, contagem de parâmetros e metadados open source.

Índice de Qualidade

O Índice de Qualidade é um score composto (0–100) criado pelo Artificial Analysis que reflete o desempenho de um modelo em múltiplos benchmarks. Fornece uma medida única e comparável da capacidade geral do modelo.

Benchmarks

Rastreamos os seguintes benchmarks:

  • MMLU-Pro — Compreensão massiva de tarefas múltiplas com questões mais difíceis.
  • GPQA Diamond — Questões científicas de nível pós-graduação na maior dificuldade.
  • HumanEval / LiveCodeBench — Geração de código e resolução de problemas.
  • MATH / AIME — Raciocínio matemático em nível de competição.
  • IFEval — Seguimento de instruções em tarefas diversas.
  • MT-Bench — Qualidade de conversa multi-turno.
  • RULER — Recuperação e utilização de contexto longo.

Métricas de Velocidade

A velocidade de saída é medida em tokens por segundo (tok/s) conforme reportado pelo Artificial Analysis. O Tempo até o Primeiro Token (TTFT) mede a latência antes do primeiro token aparecer. Ambos são medidos em condições padronizadas.

Preços

Os preços são obtidos do pricing por modelo da OpenRouter, que reflete a tarifa padrão disponível através da API. O preço combinado usa uma proporção de 3:1 entrada-para-saída, refletindo padrões típicos de uso. Todos os preços são por milhão de tokens.

Frequência de Atualização

Preços do OpenRouter e metadados de modelos do HuggingFace são atualizados a cada hora. Dados de benchmark do Artificial Analysis são atualizados a cada 6 horas. Modelos de mídia IA são atualizados a cada 8 horas.

Glossário de Termos

Índice de Qualidade
Score composto de benchmark (0–100) do Artificial Analysis.
Preço Combinado
Média ponderada dos preços de tokens de entrada e saída (proporção 3:1).
tok/s
Tokens por segundo, a velocidade de geração de saída.
TTFT
Tempo até o Primeiro Token, a latência antes do primeiro token de resposta chegar.
Janela de Contexto
Número máximo de tokens que um modelo pode processar em uma única requisição.
Open Source
Modelos com pesos publicamente disponíveis para download e auto-hospedagem.
Provedor
Um serviço que hospeda e serve o modelo via API (ex: OpenRouter, Together, Fireworks).
Parâmetros
O número de pesos treináveis em um modelo, indicando seu tamanho e capacidade.