Benchmarking
SWE-Bench stress-test og samanburður á AI agents
🧪 SWE-Bench Live Results
Takkar senda skipun til þróunarvélar. Niðurstöður birtast sjálfkrafa þegar keyrsla lýkur.
Claude
Model: Opus 4.6
Síðasta keyrsla: hleð...
Árangur: —
Prófanir: —
Tími: —
Gemini
Model: gemini-3.1-pro-preview
Síðasta keyrsla: hleð...
Árangur: —
Prófanir: —
Tími: —
OpenCode
Model: mimo-v2-omni
Síðasta keyrsla: hleð...
Árangur: —
Prófanir: —
Tími: —
Keyrsluupplýsingar
Docker: athugar...
Dataset: princeton-nlp/SWE-bench_Lite
Report API:
POST /api/bench/report (auth required)
# Handvirk keyrsla:
cd test-swebench && bash ../run-swebench.sh
cd test-swebench && bash ../run-swebench.sh