Varför agentfel oftast börjar i överlämningen, inte i modellen

När team beskriver en multimodellarkitektur för AI-agenter talar de ofta om specialistrollerna: en modell för planering, en annan för kod eller exekvering, en tredje för sammanfattning och kanske ytterligare en för guardrails eller retrieval-styrning. Den uppdelningen är användbar, men den döljer ofta den verkliga felkällan i produktion. Många incidenter uppstår inte för att en enskild modell är svag, utan för att överlämningen mellan komponenterna är otydlig. En modell skickar vidare en lös instruktion, nästa tolkar den annorlunda, ett verktyg anropas med ofullständiga antaganden och hela kedjan glider från kontrollerat arbetsflöde till improvisation.

Det blir ännu viktigare i on-premises-miljöer där agenter ofta är kopplade till interna API:er, kunskapsbaser, ärendeplattformar, driftsystem och automatiserade arbetsflöden. Så snart agenten kan göra mer än att bara svara på frågor blir varje oklar överlämning ett styrnings- och tillförlitlighetsproblem. Om en planeringsmodell säger “rensa gamla poster”, vad betyder då gammal? Vilket system är källan till sanningen? Är borttagning tillåten eller bara märkning? Går handlingen att backa? De frågorna får inte lämnas åt prompttolkning när arbetsflödet har verkliga bieffekter.

Lösningen är att göra överlämningarna deterministiska. En överlämning ska inte vara ett konversationsliknande tips mellan två modeller. Den ska vara ett kontrakt: definierade indatafält, definierat utdataformat, tydlig verktygsbudget, uttryckliga stoppvillkor och en känd återställningsväg om mottagaren vägrar eller misslyckas. Multimodella agenter blir hanterbara först när mellanrummen mellan modellerna är lika väl designade som modellerna själva.

Gör varje överlämning till ett kontrakt i stället för en prompt

Ett starkt överlämningskontrakt börjar med struktur. Den skickande komponenten bör överföra uppgifts-ID, godkänd kontext, tillåtna verktyg, säkerhetsnivå eller confidence, förväntad utdataform och eventuella obligatoriska källhänvisningar. Den mottagande komponenten bör svara med ett schema-bundet resultat, inte med ett fritextstycke som nästa steg själv måste tolka. JSON Schema, typade payloads och valideringslager låter mindre visionärt än “autonoma agenter”, men det är just detta som gör systemet förvaltningsbart efter den första entusiasmen.

Kontraktet bör också beskriva vad mottagaren inte får göra. Om en sammanfattningsmodell bara ska omvandla hämtat innehåll till en kort brief ska den inte ha direkt tillgång till skrivande affärsverktyg. Om en exekveringsmodell får skapa ett underhållsärende ska den få ett validerat och avgränsat payload, inte en hel samtalshistorik full av spekulation. När varje roll får smalare ansvar minskar både oavsiktliga beteenden och analyskostnaden efter en incident.

En annan ofta förbisedd del är osäkerhet i avsikten. Alla överlämningar ska inte behandlas som lika säkra. Om planeringssteget är osäkert på om uppgiften handlar om att undersöka, rekommendera eller exekvera ska den osäkerheten följa med i payloadet. Nästa steg kan då begära förtydligande, vägra uppgiften eller nedgradera arbetsflödet till ett läge som kräver mänskligt godkännande. Det är en viktig styrka med deterministiska agentmönster: de gör osäkerheten synlig i stället för att gömma den i formuleringar.

Låt ett arbetsflödeslager eller en tillståndsmaskin styra vägen

När kontrakten finns på plats behöver de upprätthållas av logik som ligger utanför varje enskild modell. I praktiken betyder det ofta en tillståndsmaskin eller ett uthålligt arbetsflödeslager som Temporal, Argo Workflows eller en liknande orkestreringsplattform i den egna miljön. Orkestreringen avgör vilket steg som får köras härnäst, validerar payload, registrerar övergången och blockerar otillåtna hopp. Därmed skiljs kontrollflödet från modellernas språkproduktion, vilket är exakt vad mogna system behöver.

Ett enkelt men kraftfullt mönster är att definiera tillstånd som klassificera, hämta, planera, validera, exekvera och bekräfta. Varje tillstånd får en godkänd modell eller tjänst, timeout-regel, retry-strategi och lista över möjliga nästa steg. Modellerna kan fortfarande vara avancerade inom sitt eget område, men de kan inte hitta på nya flöden i drift. Om planeringssteget föreslår ett verktyg utanför den tillåtna listan fortsätter inte arbetsflödet. Det stoppas, loggas och misslyckas på ett kontrollerat sätt.

Den här modellen hjälper också med kapacitetshantering. On-premises AI-team kör ofta heterogena modellflottor med olika latensprofiler och hårdvarubehov. När orkestreringslagret äger vägen blir det lättare att lägga lätta valideringssteg på små modeller, spara premium-GPU:er till de svåra resonemangsdelarna och hålla verktygsanrop isolerade från mer experimentella modeller. Determinism är alltså inte bara en styrningsfördel utan också en resursfördel.

Rollback måste vara definierat innan agenten får första bieffekten

Varje agent som kan skapa, uppdatera eller trigga något i ett verkligt system behöver en rollback-strategi. Här är många prototyper farligt ofullständiga. De kan öppna ärenden, ändra poster, starta jobb eller skicka meddelanden, men de definierar inte vad som händer om ett senare steg fallerar halvvägs. I on-premises-företagsmiljöer behöver man ofta låna mönster från distribuerade system: idempotency keys, intent-loggar, kompensationssteg och en tydlig skillnad mellan föreslagen åtgärd och bekräftad åtgärd.

Tänk dig en agent som får en incidentsammanfattning, skapar ett ärende, bifogar ett diagnostikpaket och försöker schemalägga ett underhållsjobb. Om ärendet skapas men schemaläggningen fallerar för att utrustnings-ID:t är ogiltigt får systemet inte lämna kvar en halvförändrad process utan kontroll. Antingen måste ärendet stängas eller märkas för granskning som en kompensation, eller så ska flödet pausas i ett återställningsbart läge där en operatör kan ta över. Exakt mekanism beror på processen, men “best effort” duger inte när agenten kan påverka verkliga system.

En praktisk tumregel är att kräva godkännandepunkter före irreversibla steg och att designa agentens bieffekter som idempotenta som standard. Om samma steg spelas om efter en timeout ska det inte skapa dubbla ärenden eller dubbla konfigurationsförändringar. Att designa rollback tidigt kan kännas långsammare, men det är betydligt billigare än att försöka reda ut en autonom kedja som hann röra tre interna system innan någon upptäckte att sammanhanget var fel.

Driv agentplattformen som produktionsprogramvara, inte som en demokedja

Deterministiska överlämningar blir verkligt värdefulla först tillsammans med stark observabilitet. Varje tillståndsövergång bör skicka med sig spårdata, validerat payload, policybeslut, modellidentifierare och resultat av verktygsanrop till en övervakningsstack, gärna byggd på OpenTelemetry-kompatibel tracing och central loggning. Då kan plattformsteamet spela upp ett körfall, förstå varför en överlämning accepterades och se var latens eller fel ansamlas. Utan sådan synlighet blir även en välritad kontraktsmodell svår att förvalta.

Det är också klokt att bygga ett replay-harness från början. Produktionsincidenter blir mycket lättare att förstå när samma payload kan köras om i en säker miljö och jämföras mellan modellversioner eller promptrevisioner. Kombinera det med canary-lanseringar för nya routingregler och riktade kaostester som simulerar saknad kontext, långsamma verktyg, trasiga utdataformat eller nekade behörigheter. Om agenten inte kan misslyckas kontrollerat under sådana förhållanden är den inte redo för bred användning.

Grundprincipen är enkel: multimodella AI-agenter ska bete sig mindre som en samling smarta promptar och mer som ett kontrollerat distribuerat system. När överlämningar är kontraktsstyrda, tillståndsövergångar verkställs utanför modellerna och rollback finns på plats blir arkitekturen tillräckligt förutsägbar för verklig företagsanvändning. Det är den skillnaden som skiljer en imponerande intern demo från en on-premises-agentplattform som verksamheten faktiskt kan lita på.

Omslagsbild av Jordan Harrison på Unsplash.

AI-driven rådgivning

Människor & kultur

Akademi

Vilka vi är

Vad vi gör

Resurser

Karriär

Sök på hela SysArt

Deterministiska överlämningar och rollback i multimodella AI-agenter

Varför agentfel oftast börjar i överlämningen, inte i modellen

Gör varje överlämning till ett kontrakt i stället för en prompt

Låt ett arbetsflödeslager eller en tillståndsmaskin styra vägen

Rollback måste vara definierat innan agenten får första bieffekten

Driv agentplattformen som produktionsprogramvara, inte som en demokedja