Agenter som kör i produktion: vad skiljer från en demo
Vi har sett hundra agenter på YouTube som imponerar i fem minuter. Här är vad som faktiskt krävs för att en agent ska överleva sex månader hos en riktig kund.
Alexander Galldin
Kapaciti
Det finns en hel industri som lever på AI-demos. En slick presentation, en agent som verkar göra magi i realtid, ett par siffror om produktivitetsökning. Sedan tystnad. Eller om det är en proof-of-concept hos kund: tre månader senare ligger den i ett arkiv och ingen pratar om den längre.
Vi har byggt nog många agenter nu för att se vilka som överlever och vilka som dör. Mönstret är tydligt och har lite med själva tekniken att göra. Det handlar om vad som finns runt agenten.
Felhantering är inte en feature, det är 60 procent av jobbet
En demo behöver fungera en gång. En produktionsagent måste fungera tio tusen gånger, varav nio tusen niohundranittionio är trista och en är konstig. Den konstiga är där felhantering avgör om systemet ses som pålitligt eller inte.
Vad händer när tredjepartsapi:t inte svarar. Vad händer när modellen returnerar något som inte går att parsa. Vad händer när användaren skickar in en bild på ett kvitto som tagits från ovanligt långt avstånd och OCR misslyckas. Vad händer när två parallella anrop kommer in på samma kund med motstridiga uppdateringar.
Allt det måste hanteras innan agenten går live. Inte som efterhandskonstruktion utan som del av designen.
Observability är dyrt om man bygger det sent
Vi loggar varje agentanrop med input, output, modell, kostnad och latens. Vi loggar varje verktygsanrop med argument, resultat och felkod. Vi har dashboards som visar misslyckanden per timme, anomalier i kostnad och drift i svarstid. Vi får larm när något beter sig avvikande.
Att bygga det här i efterhand på en agent som redan kör är dyrt och stökigt. Att bygga in det från start är en eftermiddags arbete och betalar sig omedelbart. Vi har sett bolag inse i månad fyra att de inte vet hur deras agent egentligen presterar och tvingas pausa allt för att retroaktivt instrumentera.
Versionering räddar dig dagen modellen uppdateras
Modellleverantörer släpper nya versioner. Ibland blir output bättre, ibland marginellt sämre, ibland helt annorlunda i tonläge. Om du inte versionerar både dina prompts och de modeller du anropar kommer du inte att förstå varför kvaliteten plötsligt skiftade en tisdag.
Vi pinnar alltid modell till specifik version. Vi har en testsuite som körs mot nya modellversioner innan vi byter. Vi har en rollback-rutin som tar tio minuter, inte tre dagar.
Det boring som inte syns i demos
Auth, rate limiting, kostnadstak per kund, queueing när belastningen sticker iväg, retries med exponential backoff, idempotens, deduplikering av events, audit trail. Inget av det är glamoröst. Allt är skillnaden mellan en agent som kör i produktion och en som kraschar tredje veckan och blir bortglömd.
Vårt råd om du står inför att bygga er första riktiga agent: räkna med att 30 procent av tiden går till själva modellen och promptarna. De andra 70 procenten är allt det som gör att systemet överlever en vardag.