Det dolda kostnadssynlighetsproblemet i lokal AI

Molnbaserade LLM-leverantörer löser kostnadssynlighet som standard — varje API-anrop returnerar ett tokenantal, och varje token har ett pris. När du flyttar inferens lokalt får du kontroll över data och latens men förlorar denna inbyggda kostnadstransparens. Hårdvarukostnaderna är fasta (kapitalutgifter för GPU:er, nätverk, kylning) och användningen delas mellan team, vilket skapar illusionen att enskilda inferensförfrågningar är gratis.

Denna illusion driver slösaktig förbrukning. Utan kostnadssignaler skriver applikationsteam promptar med överdrivna kontextfönster, upprepar misslyckade förfrågningar utan fördröjning och bygger funktioner som gör tusentals inferensanrop där hundratals skulle räcka. Ett delat lokalt GPU-kluster som körs på full kapacitet är inte gratis — det innebär att något teams förfrågningar köas medan ett annat teams ineffektiva promptar förbrukar resurser som med bättre design kunde betjäna tre gånger mer trafik.

Tokenbudgethantering bringar disciplinen från molnbaserad kostnadsattribuering till lokal infrastruktur. Det kräver inte verkliga pengar — målet är att göra förbrukningen synlig, fördela kapacitet rättvist och ge team den information de behöver för att optimera sin användning.

Mätning: räkna tokens på gateway-nivå

Korrekt mätning är grunden. Varje inferensförfrågan måste räknas med tillräcklig granularitet för att stödja attributions- och budgetbeslut nedströms.

Den mest praktiska mätpunkten är en API-gateway som sitter mellan applikationsklienter och dina inferensbackendar. Denna gateway hanterar redan routing, autentisering och hastighetsbegränsning — att lägga till tokenmätning är en naturlig utvidgning. För varje förfrågan registrerar gatewayn antalet indatatoken (promptlängd), antalet utdatatoken (kompletteringslängd), modellidentifieraren (eftersom olika modeller har olika resurskostnader), det begärande teamets eller tjänstens identitet samt förfrågans tidsstämpel och latens.

Tokenräkning måste ske med samma tokeniserare som modellen som betjänas. Ett mätsystem som använder en generisk ordräkningsapproximation kommer att producera attributionsfel som ackumuleras över tid. De flesta inferensramverk (vLLM, TGI, Triton) exponerar tokenantal i sina svarsmetadata — extrahera dessa istället för att beräkna dem separat.

Lagra mätdata i en tidsseriedatabas (Prometheus, InfluxDB eller TimescaleDB) med etiketter för team, applikation, modell och förfrågningstyp. Bevarandepolicyer bör hålla högupplöst data (per förfrågan) i minst 30 dagar och aggregerad data (per timme, per team) i 12 månader.

Kostnadsattribuering: från tokens till valuta

Råa tokenantal blir användbara för organisatoriskt beslutsfattande när de översätts till kostnader. Lokal kostnadsattribuering kräver en kostnadsmodell som mappar tokenförbrukning till de faktiska kostnaderna för att driva infrastrukturen.

Börja med att beräkna din fullt belastade kostnad per token för varje modell du betjänar. Summera alla kostnader associerade med inferensinfrastrukturen — GPU-leasing eller avskrivning, el, kylning, nätverk, lagring och driftteamets tid — och dividera med det totala antalet tokens som behandlats under samma period. Detta ger dig en blandad kostnad per token som kan jämföras direkt med molnbaserad API-prissättning för att validera din lokala avkastning på investering.

Olika modeller har olika kostnader per token eftersom de förbrukar olika mängder GPU-minne och beräkning. En modell med 70 miljarder parametrar som körs på fyra A100 GPU:er kostar ungefär åtta gånger mer per token än en modell med 7 miljarder parametrar på en enda GPU. Din kostnadsmodell bör spegla dessa skillnader så att team som väljer mindre, effektivare modeller för sina användningsfall ser besparingarna i sina attributeringsrapporter.

Publicera kostnadsattribueringsrapporter på minst veckobasis, nedbrutna per team och applikation. De första rapporterna kommer att överraska — team som trodde att deras användning var blygsam upptäcker ofta att de är bland de största konsumenterna. Denna synlighet ensam, utan någon upprätthållning, minskar typiskt den samlade förbrukningen med 15-25 procent.

Budgetallokering och kvotdesign

När mätning och attributering är stabila kan du introducera budgetar. En budget är en tokenkvot som tilldelas ett team eller en applikation för en definierad period, satt baserad på teamets legitima behov och organisationens totala kapacitet.

Designa ditt kvotsystem med tre nivåer. Den garanterade kvoten är en basallokering som teamet kan förbruka när som helst utan konkurrens — deras förfrågningar köas eller avvisas aldrig upp till denna gräns. Burstkvoten är ytterligare kapacitet tillgänglig när klustret har utrymme, betjänad efter bästa förmåga. Det hårda taket är ett absolut tak som inte kan överskridas oavsett tillgänglig kapacitet.

Sätt garanterade kvoter baserat på historisk förbrukningsdata från ditt mätsystem, med 20-30 procent påslag för tillväxt. Motstå frestelsen att överallokera — om summan av alla garanterade kvoter överstiger ditt klusters uthålliga genomströmningskapacitet är garantierna meningslösa. Burst-nivån ger den flexibilitetsbuffert som gör konservativa garanterade kvoter praktiskt genomförbara.

Implementera kvotöverföring försiktigt. Att tillåta oanvänd kvot att ackumuleras skapar perversa incitament. En bättre ansats är att granska och justera garanterade kvoter kvartalsvis baserat på faktisk användning.

Upprätthållning: hastighetsbegränsning, köhantering och graciös degradering

Budgetar utan upprätthållning är förslag. Din API-gateway måste implementera budgetupprätthållning som översätter kvotgränser till realtidsbeslut om inkommande förfrågningar.

Upprätthållningsflödet fungerar så här: när en förfrågan anländer kontrollerar gatewayn det begärande teamets aktuella förbrukning mot deras kvot. Om teamet är inom sin garanterade kvot fortsätter förfrågan omedelbart. Om de har förbrukat sin garanterade kvot men burstkapacitet finns tillgänglig fortsätter förfrågan med lägre schemaläggningsprioritet. Om de har nått sitt hårda tak får förfrågan en 429-statuskod med ett Retry-After-huvud som anger när kvoten uppdateras.

Implementera en tokenreserveringsmekanism för långvariga eller strömmande förfrågningar. När en förfrågan med stor indatakontext anländer, uppskatta den totala tokenkostnaden (indata plus förväntad utdata) och reservera det beloppet mot teamets kvot innan inferens påbörjas.

Bygg kostnadsmedvetna klientbibliotek som dina applikationsteam använder för att interagera med inferens-API:et. Dessa bibliotek bör exponera teamets aktuella förbrukning och återstående kvot, automatiskt implementera exponentiell fördröjning när gränser närmar sig och tillhandahålla kostnadsuppskattningar på promptnivå före inskickning.

Operativa instrumentpaneler och optimeringsåterkoppling

Den sista pusselbiten är att göra kostnadsdata handlingsbara genom instrumentpaneler som synliggör optimeringsmöjligheter och spårar framsteg över tid.

Bygg en teamnivåinstrumentpanel som visar aktuell förbrukning mot kvot (med trendlinjer), de 10 dyraste förfrågningarna under aktuell period, per-applikationsuppdelning inom teamets totala användning och jämförelse av prompteffektivitet (utdatatoken per indatatoken) mot organisatoriska benchmarks. Team som ser sina dyraste förfrågningar upptäcker ofta att de skickar hela dokument som kontext när en sammanfattning skulle ge likvärdiga resultat.

Skapa en infrastrukturnivåinstrumentpanel för plattformsteamet som visar aggregerad utnyttjandegrad, kostnadstrender per modell och kapacitetsprognoser. När utnyttjandegraden konsekvent överstiger 80 procent av total kapacitet är det dags att antingen lägga till hårdvara eller arbeta med de mest förbrukande teamen för att optimera.

Etablera en kvartalsvis kostnadsgenomgång där plattformsteamet träffar varje applikationsteam för att granska deras förbrukningsmönster, diskutera optimeringsmöjligheter och justera kvoter för nästa kvartal. Dessa genomgångar transformerar kostnadshantering från ett uppifrån-och-ner-mandat till en samarbetsinriktad ingenjörspraktik.

Utvald bild av 2H Media på Unsplash.

AI-driven rådgivning

Människor & kultur

Akademi

Vilka vi är

Vad vi gör

Resurser

Karriär

Sök på hela SysArt

Tokenbudgethantering och kostnadsattribuering för lokal LLM-inferens