Bygga4 april 20266 min läsning

Agenter som kör i produktion: vad skiljer från en demo

Vi har sett hundra agenter på YouTube som imponerar i fem minuter. Här är vad som faktiskt krävs för att en agent ska överleva sex månader hos en riktig kund.

Kapaciti

Det finns en hel industri som lever på AI-demos. En slick presentation, en agent som verkar göra magi i realtid, ett par siffror om produktivitetsökning. Sedan tystnad. Eller om det är en proof-of-concept hos kund: tre månader senare ligger den i ett arkiv och ingen pratar om den längre.

Vi har byggt nog många agenter nu för att se vilka som överlever och vilka som dör. Mönstret är tydligt och har lite med själva tekniken att göra. Det handlar om vad som finns runt agenten.

Felhantering är inte en feature, det är 60 procent av jobbet

En demo behöver fungera en gång. En produktionsagent måste fungera tio tusen gånger, varav nio tusen niohundranittionio är trista och en är konstig. Den konstiga är där felhantering avgör om systemet ses som pålitligt eller inte.

Vad händer när tredjepartsapi:t inte svarar. Vad händer när modellen returnerar något som inte går att parsa. Vad händer när användaren skickar in en bild på ett kvitto som tagits från ovanligt långt avstånd och OCR misslyckas. Vad händer när två parallella anrop kommer in på samma kund med motstridiga uppdateringar.

Allt det måste hanteras innan agenten går live. Inte som efterhandskonstruktion utan som del av designen.

Observability är dyrt om man bygger det sent

Vi loggar varje agentanrop med input, output, modell, kostnad och latens. Vi loggar varje verktygsanrop med argument, resultat och felkod. Vi har dashboards som visar misslyckanden per timme, anomalier i kostnad och drift i svarstid. Vi får larm när något beter sig avvikande.

Att bygga det här i efterhand på en agent som redan kör är dyrt och stökigt. Att bygga in det från start är en eftermiddags arbete och betalar sig omedelbart. Vi har sett bolag inse i månad fyra att de inte vet hur deras agent egentligen presterar och tvingas pausa allt för att retroaktivt instrumentera.

Versionering räddar dig dagen modellen uppdateras

Modellleverantörer släpper nya versioner. Ibland blir output bättre, ibland marginellt sämre, ibland helt annorlunda i tonläge. Om du inte versionerar både dina prompts och de modeller du anropar kommer du inte att förstå varför kvaliteten plötsligt skiftade en tisdag.

Vi pinnar alltid modell till specifik version. Vi har en testsuite som körs mot nya modellversioner innan vi byter. Vi har en rollback-rutin som tar tio minuter, inte tre dagar.

Det boring som inte syns i demos

Auth, rate limiting, kostnadstak per kund, queueing när belastningen sticker iväg, retries med exponential backoff, idempotens, deduplikering av events, audit trail. Inget av det är glamoröst. Allt är skillnaden mellan en agent som kör i produktion och en som kraschar tredje veckan och blir bortglömd.

Vårt råd om du står inför att bygga er första riktiga agent: räkna med att 30 procent av tiden går till själva modellen och promptarna. De andra 70 procenten är allt det som gör att systemet överlever en vardag.

Vill ni prata om det här?

Ta en kaffe med oss

Om något här resonerade med er situation, hör av er. Vi sitter gärna ner och pratar om var ni är och vad nästa rimliga steg kunde vara. Inga säljpitchar, bara ett samtal.

Skriv till oss

Mer från Bygga

Fortsätt läsa

Tre till från samma kategori. Inget filterbubblande, bara relaterade tankar.

Bygga14 min

Agenter som kör i produktion: vad skiljer från en demo

Felhantering är inte en feature, det är 60 procent av jobbet

Observability är dyrt om man bygger det sent

Versionering räddar dig dagen modellen uppdateras

Det boring som inte syns i demos

Ta en kaffe med oss

Fortsätt läsa

Hur vi byggde en compliance-AI som inte ber dig att lita på oss

RAG är inte magi

Det du tappar i molnet

EU AI Act, sandbox-status och svensk AI-infrastruktur.