Vi kör två publika utvärderingar mot vår referens-stack. Adversarial robustness mäter hur väl en produktionsagent håller scope, motstår system-prompt-läckage och undviker fabrikation. Regelefterlevnads-suiten mäter hur agenten resonerar kring EU AI Act-relaterade scenarios. Allt levereras som Ed25519-signerade bundles med deterministisk hash-kedja.
Senast uppdaterad 2026-05-19. Råresponser och scoring-logik är offentliga och reproducerbara från github.com/Fluxz-Holding/kapaciti-audit-demo.
Suiten består av 50 tester över fem kategorier som tillsammans täcker de vanligaste failure-modes vi ser i produktion. Varje test har en deterministisk pass/fail-bedömning gjord av en separat judge-model. Target och judge är dokumenterade i bundlen. Körningen genomfördes 2026-05-18 och omdömdes från sparade raw-responser i version v1.1-rejudge.
Target-model: claude-haiku-4-5. Judge-model: claude-sonnet-4-6. No-response markerar tester där target inte hann svara innan upstream rate-limit slog till. Pass-rate exklusive no-response är den jämförbara siffran över faktiska responser.
Suiten består av 18 scenarios som speglar EU AI Act-relevanta beslutssituationer, bland annat kreditbedömning, anställningsbeslut, biometri, kritisk infrastruktur, övervakning och transparency. Varje scenario har explicita kriterier för riskklassificering, dokumentations- och artikel-referens. Körningen genomfördes 2026-05-19 och omdömdes från sparade raw-responser i version v1.1-rejudge.
ai-act-004-betygsattningAgent-model: claude-sonnet-4-6. Judge-model: claude-opus-4-7. Scoringen är 0–1 per scenario, presenterad här som /100. Snittet exkluderar no-response för att hålla siffran jämförbar mellan körningar.
Båda suiterna signeras med samma Ed25519-nyckelpar. Public key publiceras här och i bundlens header. Externa parter kan verifiera signature och hash-länkning utan tillgång till Kapacitis runtime.
ed25519Public key (hex)282d6f5b84906548e29bcec5bee7d37b3f023f2b6c967c68fbeb944c84356998Fingerprintsha256:0e6daf50937454fcfaa1e9f74713b430bb04c60fb56bc30857ef632fad614505sha256:d0bf20f7bc962c93f90db8822e7ef4000ad8cc1aa88cf5406c41acf62e57fb29git clone https://github.com/Fluxz-Holding/kapaciti-audit-demo cd kapaciti-audit-demo
curl https://kapaciti.se/eval-bundles/robustness-suite-2026-05-18.bundle.json \ -o robustness-suite-2026-05-18.bundle.json curl https://kapaciti.se/eval-bundles/regulatory-suite-2026-05-19.bundle.json \ -o regulatory-suite-2026-05-19.bundle.json
Verktyget validerar hash-kedjan, kontrollerar signatures mot bundlens public key och rapporterar OK när allt stämmer. Inga proprietära verktyg, ingen Kapaciti-runtime.
node verify.mjs robustness-suite-2026-05-18.bundle.json # Expected: OK: all 50 blocks verified, chain intact, signatures valid node verify.mjs regulatory-suite-2026-05-19.bundle.json # Expected: OK: all 18 blocks verified, chain intact, signatures valid
Cross-verifiering
Samma public key publiceras i flera kanaler så att en motpart kan jämföra fingerprints över tid. Se även trust/audit-keys för det permanenta nyckelregistret och trust/verify-yourself för en steg-för-steg-genomgång.
Vi publicerar siffror med samma kvalitetsbar som vi använder internt. Det innebär även att vara explicit kring vad mätningarna inte säger.
Det här är forsknings-grade utvärderingar. Inget certifikat utfärdas av tredje part. ISO 27001, ISO 42001 och relaterade certifieringar har egna processer och tidslinjer, se trust/compliance för status.
Bundlen är signerad av Kapaciti själv. Cross-verifiering kräver att en motpart kontrollerar samma public key över oberoende kanaler. Externa attestations-procedurer rullas ut per pilot.
Varje suite mäter en target-model per körning. Resultaten beskriver inte hela ekosystemet av modeller utan en specifik referens-stack. Andra modeller, prompt-versioner och tooling kan ge andra resultat.
Judge-model är en LLM och bedömer mot deterministiska kriterier, men bedömningen är inte fri från fel. Raw-responser sparas så att en extern part kan omdöma manuellt.
Alla bundles ovan kan verifieras lokalt utan att kontakta Kapaciti. Reproducerbarhets-kitet är öppet och inga proprietära beroenden krävs.
● Nyhetsbrev
En sammanfattning ungefär en gång i månaden. Vad förändrats i regelverket, vilka pilot-cases vi sett och vilka vendor-shifts som påverkar svenska bolag. Skickas av oss, inte av en automation som låtsas vara oss.