PraxisBenchmark

Evaluación avanzada de modelos generativos de texto e imagen

¿Qué es PraxisBenchmark?

PraxisBenchmark es un sistema de evaluación diseñado para medir el rendimiento real de modelos de inteligencia artificial generativa, tanto en texto como en imágenes. Está pensado para evaluar capacidades como razonamiento, búsqueda, creatividad y promptabilidad.

Categorías

SLGT: Short and Large Generative Text
Evalúa generación de texto corto y largo, coherencia, estilo y precisión.
GSI: Generative Simple Images
Generación de imágenes sencillas sin necesidad de prompt complejo.
GPI: Generative Prompteable Images
Evalúa modelos que responden bien a prompts específicos y detallados.
DTSO: Deep Thinking and Search Online
Pruebas que requieren razonamiento profundo y uso de búsqueda en tiempo real.

Promptabilidad

En PraxisBenchmark, la promptabilidad es una métrica clave, aunque se reconoce que no puede alcanzar el 100%, ya que los prompts varían en forma y contexto. Se mide la capacidad del modelo para entender, responder y adaptarse a prompts complejos.

Escala de Interpretación

Las puntuaciones se expresan en una escala de 0 a 100. Valores cercanos a 100 indican excelencia en la tarea evaluada, mientras que valores bajos indican carencias significativas.

Comparativa: Meta AI LLaMA 4 vs GPT-4

Modelo SLGT GSI GPI
GPT-4 94.0 86 94
LLaMA 4 22.6 75 93

Repositorio

Puedes ver y contribuir al proyecto en nuestro GitHub.