Evaluación avanzada de modelos generativos de texto e imagen
PraxisBenchmark es un sistema de evaluación diseñado para medir el rendimiento real de modelos de inteligencia artificial generativa, tanto en texto como en imágenes. Está pensado para evaluar capacidades como razonamiento, búsqueda, creatividad y promptabilidad.
En PraxisBenchmark, la promptabilidad es una métrica clave, aunque se reconoce que no puede alcanzar el 100%, ya que los prompts varían en forma y contexto. Se mide la capacidad del modelo para entender, responder y adaptarse a prompts complejos.
Las puntuaciones se expresan en una escala de 0 a 100. Valores cercanos a 100 indican excelencia en la tarea evaluada, mientras que valores bajos indican carencias significativas.
| Modelo | SLGT | GSI | GPI |
|---|---|---|---|
| GPT-4 | 94.0 | 86 | 94 |
| LLaMA 4 | 22.6 | 75 | 93 |
Puedes ver y contribuir al proyecto en nuestro GitHub.