Benchmarking

SWE-Bench stress-test og samanburður á AI agents

Takkar senda skipun til þróunarvélar. Niðurstöður birtast sjálfkrafa þegar keyrsla lýkur.

Claude

Model: Opus 4.6

Síðasta keyrsla: hleð...

Árangur: —

Prófanir: —

Tími: —

Gemini

Model: gemini-3.1-pro-preview

Síðasta keyrsla: hleð...

Árangur: —

Prófanir: —

Tími: —

OpenCode

Model: mimo-v2-omni

Síðasta keyrsla: hleð...

Árangur: —

Prófanir: —

Tími: —

Keyrsluupplýsingar

Docker: athugar...

Dataset: princeton-nlp/SWE-bench_Lite

Report API: POST /api/bench/report (auth required)

          # Handvirk keyrsla:

          cd test-swebench && bash ../run-swebench.sh