Kontrollplanet kan inte vara ännu en agent

Agentic AI Mesh-diskussionen från McKinsey och QuantumBlack pekar på ett verkligt enterprise-behov: organisationer vill inte ha hundratals frikopplade agentexperiment, där varje experiment har egna verktyg, prompts, risker och styrningsluckor. En gemensam arkitektur behövs. Men produktionsutmaningen är skarpare än diagrammen antyder. Om komponenten som ansvarar för uppgiftsnedbrytning, routning, planering och validering till största delen är LLM-driven har systemet inte fått ett kontrollplan. Det har skapat en kraftfull agent med administrativa rättigheter.

Skillnaden är inte semantisk. Ett kontrollplan bör vara stabilt vid upprepad körning. Det bör exponera tydliga tillståndsövergångar, genomdriva policy och bete sig förutsägbart när ett downstream-system fallerar. En språkmodell kan hjälpa till att tolka ett mål, men den bör inte vara slutlig auktoritet för vilket workflow som körs, vilket verktyg som anropas eller vilken åtgärd som är tillåten. Det ansvaret tillhör deterministisk orkestrering.

Separera avsiktsförståelse från exekveringsplanering

Ett praktiskt enterprise-mönster är att dela agentworkflowet i två faser. I den första fasen kan en LLM tolka användarens begäran, ställa klargörande frågor, klassificera domänen och skissa en kandidatplan. Den fasen är probabilistisk av naturen eftersom mänskligt språk är tvetydigt. I den andra fasen måste kandidatplanen omvandlas till en typad exekveringsgraf med explicita steg, tillåtna verktyg, inputscheman, retry-gränser, godkännandegrindar och rollback-beteende.

Grafen bör valideras innan något rör ett enterprise-system. Om ett steg saknar auktoriserat verktyg stoppas workflowet. Om obligatorisk input saknas efterfrågas den. Om ett verktyg skulle nå begränsad data nekar policy-motorn åtgärden. Om planen försöker blanda inkompatibla domäner routar orkestratorn till mänsklig granskning. Så blir probabilistiskt språkjobb operationellt ansvarigt.

Ramverk som LangGraph, Temporal, Camunda, Argo Workflows eller anpassade workflow-motorer kan stödja mönstret om de används disciplinerat. Poängen är inte det specifika verktyget. Poängen är att planen representeras som maskinkontrollerbart tillstånd, inte som ett konversationslöfte.

Typade verktyg slår beskrivande tool cards

Många agentsystem exponerar verktyg genom naturliga språkbeskrivningar. Det är användbart för modellens val, men inte tillräckligt för produktionssäkerhet. Ett verktyg bör ha ett typat kontrakt: inputs, outputs, behörigheter, sidoeffekter, idempotensregler, timeout-beteende och felklasser. Modellen kan begära ett verktygsanrop, men gatewayen bör avgöra om anropet är giltigt.

En fakturaagent bör till exempel inte anropa ett betalnings-API bara för att den drar slutsatsen att betalning är nästa logiska steg. Verktygsgatewayen bör kontrollera fakturastatus, godkännandeläge, leverantörsrisk, beloppsgränser, segregation-of-duty-regler och om åtgärden är reversibel. Om kontrollerna passerar kan workflowet fortsätta. Om inte får modellen ett strukturerat avslag och måste antingen be om saknad information eller eskalera.

Designen minskar modellmisstags sprängradie. LLM:en kan fortfarande resonera och kommunicera, men den kan inte improvisera operationell auktoritet. I reglerade branscher är den skillnaden central för revisionsbarhet.

Validering måste inkludera negativa scenarier

Enterprise-team testar ofta agentsystem genom att fråga om de klarar den avsedda uppgiften. Det räcker inte. Produktionsvalidering måste inkludera negativa scenarier: verktyg otillgängligt, partiellt API-svar, obehörig användare, gammalt minne, motstridiga policyer, skadlig prompt injection, duplicerad åtgärdsbegäran, oväntat dataformat och downstream-timeout. Multi-agent-system fallerar farligast vid kanterna, inte på happy path.

Evalueringar bör därför vara lagerindelade. Stegtester verifierar enskilda prompts, parsers, verktyg och policyer. Workflowtester verifierar kompletta exekveringsvägar och felhantering. Långhorisonttester verifierar om upprepade interaktioner skapar minnesförorening, kostnadsdrift eller sämre beslutskvalitet. Mänskliga granskningsurval bör fokusera på tvetydiga och högpåverkande fall, inte bara slumpmässiga outputs.

Evalueringssviten bör köras vid varje deployment och när underliggande modell, prompt, retrieval-index, verktygsschema eller policy ändras. Om en modellleverantör tyst ändrar beteende bör organisationen veta om agentworkflowet fortfarande uppfyller samma operationella kontrakt.

Observerbarhet är inte bara tracing

Tracing är nödvändigt, men inte tillräckligt. En trace kan säga vad som hände. Den säger inte alltid om systemet borde ha gjort det. Agentobserverbarhet måste kombinera teknisk telemetri med beslutstelemetri: varför en plan valdes, vilken policy som tillät ett verktygsanrop, vilket bevis som stödde en rekommendation, var modellen uttryckte osäkerhet och vilken människa som godkände åtgärden.

Användbara dashboards bör innehålla kostnad per slutfört workflow, antal modellanrop per uppgift, retry-frekvens, verktygsavvisningar, eskaleringsfrekvens, policyblockerade åtgärder, användning av gammal kontext och kategorier av mänskliga korrigeringar. Dessa signaler visar om plattformen blir mer tillförlitlig eller bara mer aktiv. En mesh med stigande agenttrafik och stigande korrigeringsgrad skalar inte intelligens; den skalar granskningsbörda.

OpenTelemetry kan vara ryggraden för traces och metriker, men agentspecifik semantik måste läggas till. Utan konsekventa eventnamn och workflow-ID:n blir incidentrespons arkeologi.

En produktionsklar operativ modell

Det säkraste enterprise-mönstret är en lagerindelad operativ modell. LLM:er hanterar tolkning och språkintensivt resonemang. Deterministiska workflow-motorer hanterar exekveringstillstånd. Policy-motorer hanterar auktorisering och begränsningar. Verktygsgateways hanterar systemintegration. Evalueringssviter hanterar regressionsrisk. Människor hanterar högpåverkande omdöme och ägarskap för undantag.

Det gör inte agentsystem mindre ambitiösa. Det gör dem mer deploybara. Målet är inte att ta bort autonomi överallt, utan att definiera exakt var autonomi är tillåten och var den måste omvandlas till kontrollerat workflow. Organisationer som gör den distinktionen kan skala agentiska förmågor gradvis. Organisationer som behandlar orkestrering som ännu en LLM-prompt kommer att lägga mer tid på att förklara fel än på att leverera värde.

Utvald bild av imgix på Unsplash.

AI-driven rådgivning

Människor & kultur

Akademi

Vilka vi är

Vad vi gör

Resurser

Karriär

Sök på hela SysArt

Deterministisk orkestrering för enterprise-agentsystem