Tillbaka till bloggen
Bygga14 mars 20267 min läsning

Kostnadsstyrning på LLM-anrop: principer som sparar pengar

Illustrativt scenario: en oväntat fyrdubblad AI-faktura. Här är hur man spårar vad som hände och bygger in skydd så att det inte upprepas.

Kapaciti

Illustrativt scenario

Tänk dig att en CFO öppnar månadens AI-faktura och den är fyra gånger högre än prognosticerat. Det är en smärtsam morgon, och det är ett scenario som dyker upp oftare än man tror. Här är hur man typiskt diagnostiserar det och vilken kostnadsstyrning som borde byggas in i alla produktionssystem från start.

En vanlig orsak

Ett illustrativt exempel: en agent som hanterar inkommande mail läser, kategoriserar och föreslår svar. När en användare byter mail-leverantör i mitten av månaden börjar IMAP-servern skicka samma mail flera gånger om dagen. Agenten läser samma mail om och om igen och fakturerar tokens varje gång.

Tre brister räcker för att skapa en sådan faktura: ingen idempotenskontroll, ingen kostnadströskel som larmar, och ingen daglig kostnadssammanställning. Tre brister, en chockfaktura.

Skydden som ska finnas på plats från start

Tre saker borde alltid byggas in. Först en deduplikering på message-id-nivå så att samma mail bara läses en gång oavsett hur många gånger det dyker upp. Sedan en daglig kostnadströskel per kund där agenten pausas om något stiger ovanligt mycket. Sist en dashboard som visar kostnad per timme i realtid.

Inget av det är komplicerat att bygga. Det är standardteknik. Det är dyrare att inte göra det.

Tre principer vi följer för all kostnadshantering

Den första är att aldrig stänga av kostnadsspårning, även för småskaliga system. Det är de små systemen som tenderar att smyga upp i pris. När du upptäcker det är det redan dyrt.

Den andra är att alltid dela in kostnaden per slutkund eller per process. Aggregerad kostnad döljer var pengarna går. Detaljerad spårning visar omedelbart vilka delar som är dyra och vilka som är billiga.

Den tredje är att designa retries med kostnad i åtanke. En naiv retry-loop som körs vid varje fel kan multiplicera kostnaden snabbt vid ett api-avbrott. Exponential backoff med tak och cirkuitbrytare som stänger av efter ett visst antal misslyckanden är standard.

Modellvalet är ofta större än optimeringen

Innan du optimerar prompts eller cachar svar, fråga dig om du kör rätt modell för uppgiften. Många organisationer kör flaggskeppsmodeller på uppgifter där en mindre modell skulle prestera lika bra till en tiondel av priset.

Klassificering, extraktion, enkel formatering. Allt det går utmärkt på mindre modeller. Spara de stora för det som faktiskt kräver resonemang.

Det viktiga budskapet till ledningsgrupper

AI-kostnader är inte fasta. De drivs av användning och användning kan skena utan förvarning. Bygg in kostnadsstyrning från dag ett. Det är inte ett efterhandstillägg, det är en del av att leverera en produktionsmogen agent.

Vill ni prata om det här?

Ta en kaffe med oss

Om något här resonerade med er situation, hör av er. Vi sitter gärna ner och pratar om var ni är och vad nästa rimliga steg kunde vara. Inga säljpitchar, bara ett samtal.

Skriv till oss

Nyhetsbrev

EU AI Act, sandbox-status och svensk AI-infrastruktur.

En sammanfattning ungefär en gång i månaden. Vad som förändrats i regelverket, vilka pilot-cases vi sett och vilka vendor-shifts som påverkar svenska bolag. Skickas av oss, inte av en automation som låtsas vara oss.

Uppgifterna används endast för nyhetsbrevet. Inga utskick utöver det utan separat samtycke. Avregistrera när som helst via länk i mailet.