Benchmarking

SWE-Bench stress-test og samanburður á AI agents

🧪 SWE-Bench Live Results

Takkar senda skipun til þróunarvélar. Niðurstöður birtast sjálfkrafa þegar keyrsla lýkur.
Claude
Model: Opus 4.6
Síðasta keyrsla: hleð...
Árangur:
Prófanir:
Tími:
Gemini
Model: gemini-3.1-pro-preview
Síðasta keyrsla: hleð...
Árangur:
Prófanir:
Tími:
OpenCode
Model: mimo-v2-omni
Síðasta keyrsla: hleð...
Árangur:
Prófanir:
Tími:
Keyrsluupplýsingar
Docker: athugar...
Dataset: princeton-nlp/SWE-bench_Lite
Report API: POST /api/bench/report (auth required)
# Handvirk keyrsla:
cd test-swebench && bash ../run-swebench.sh