PraxisBenchmark

¿Qué es PraxisBenchmark?

PraxisBenchmark es un sistema de evaluación diseñado para medir el rendimiento real de modelos de inteligencia artificial generativa, tanto en texto como en imágenes. Está pensado para evaluar capacidades como razonamiento, búsqueda, creatividad y promptabilidad.

Categorías

SLGT: Short and Large Generative Text
Evalúa generación de texto corto y largo, coherencia, estilo y precisión.

GSI: Generative Simple Images
Generación de imágenes sencillas sin necesidad de prompt complejo.

GPI: Generative Prompteable Images
Evalúa modelos que responden bien a prompts específicos y detallados.

DTSO: Deep Thinking and Search Online
Pruebas que requieren razonamiento profundo y uso de búsqueda en tiempo real.

Promptabilidad

En PraxisBenchmark, la promptabilidad es una métrica clave, aunque se reconoce que no puede alcanzar el 100%, ya que los prompts varían en forma y contexto. Se mide la capacidad del modelo para entender, responder y adaptarse a prompts complejos.

Escala de Interpretación

Las puntuaciones se expresan en una escala de 0 a 100. Valores cercanos a 100 indican excelencia en la tarea evaluada, mientras que valores bajos indican carencias significativas.

90 - 100: Nivel sobresaliente, dominio absoluto de la tarea.
75 - 89: Muy bueno, pero con márgenes de mejora.
50 - 74: Correcto, pero limitado o inconsistente.
0 - 49: Bajo rendimiento o fallos frecuentes.

Comparativa: Meta AI LLaMA 4 vs GPT-4

Modelo	SLGT	GSI	GPI
GPT-4	94.0	86	94
LLaMA 4	22.6	75	93

Repositorio

Puedes ver y contribuir al proyecto en nuestro GitHub.