Repositorio para probar, comparar y registrar el desempeño de modelos de IA generativa (LLMs) a medida que vayan saliendo.
- Runner de suites y tareas con registro auditable por ejecución (runs).
- 3 tareas de ejemplo (programación, datos/SQL, tono comunicacional) con evaluadores automáticos.
- Reportes básicos (leaderboard) a partir de los runs.
- Workflows de GitHub Actions (smoke en PR y ejecución programada).
- Python 3.10+
Instalación:
python -m venv .venv
# Windows: .venv\\Scripts\\activate
source .venv/bin/activate
pip install -r requirements.txtpython -m tools.run_suite --model mock --suite programming_general --tasks pg_001_function_implementation --max-cases 1python -m tools.run_suite --model mock --suite programming_general
python -m tools.run_suite --model mock --suite data_programming
python -m tools.run_suite --model mock --suite communication_toneEste repo trae adapters para OpenAI SDK y LiteLLM. Con LiteLLM puedes comparar proveedores (OpenAI, Claude, Gemini, DeepSeek) con una interfaz única.
- Instala:
pip install litellm- Configura claves en el entorno (según el proveedor):
- OpenAI:
OPENAI_API_KEY - Claude:
ANTHROPIC_API_KEY - Gemini:
GOOGLE_API_KEYoGEMINI_API_KEY(según tu setup de LiteLLM) - DeepSeek:
DEEPSEEK_API_KEY
- Usa los modelos ya registrados en
models/registry.yml:
python -m tools.run_suite --model openai_gpt_4o_mini_litellm --suite programming_general
python -m tools.run_suite --model claude_sonnet_litellm --suite programming_general
python -m tools.run_suite --model gemini_pro_litellm --suite programming_general
python -m tools.run_suite --model deepseek_chat_litellm --suite programming_general- Instala:
pip install openai- Configura variables:
- OpenAI:
OPENAI_API_KEY - DeepSeek:
DEEPSEEK_API_KEYDEEPSEEK_BASE_URL
- Ejecuta:
python -m tools.run_suite --model openai_gpt_4o_mini_strict --suite programming_general
python -m tools.run_suite --model deepseek_chat_openai_compat --suite programming_generalLuego de correr varios modelos/suites:
python tools/aggregate.pysuites/: suites y tareas. Cada tarea vive en una carpeta contask.yml,prompt.md,cases.jsonlyevaluator.py.models/: adapters y registry de modelos.runs/: salidas por ejecución (metadatos, resultados y artifacts).tools/: runner y agregadores de reportes.
Algunas tareas (por ejemplo programación) ejecutan código generado por el modelo para correr tests. No ejecutes suites de terceros sin revisar el contenido.
Ver docs/experiment_protocol.md y usa como referencia una carpeta de tarea existente en suites/*/tasks/*.