Medan NVIDIA säljer motorn styr VORTIQ-X processen, och har just publicerat benchmarktestet som stoppar 89 % av modellanropen innan en enda GPU-cykel slösas bort

Medan NVIDIA säljer motorn styr VORTIQ-X processen, och har just publicerat benchmarktestet som stoppar 89 % av modellanropen innan en enda GPU-cykel slösas bort

Publicerat av: Redaktionen

Ett europeiskt runtime-auktoritetslager, utformat för att fungera ovanpå alla modeller, moln och acceleratorlager, riktar samma något obekväma budskap till företag som till NVIDIA:s eget ekosystem: värdet i reglerad AI ligger inte längre i motorn.

Det ligger i vem som har rätt att styra handlingen, och det lagret tillhör ingen chipleverantör.

Den dyraste AI:n är den AI som aldrig borde ha körts. VORTIQ-X har just publicerat benchmarkresultat som visar att plattformen kan stoppa, hålla tillbaka eller undvika onödig AI-exekvering innan den släpps vidare, med benchmarkspecifika minskningar av modellanrop, tokenförbrukning och uppmätt GPU-energi, utan att blockera eller fördröja det arbete som faktiskt ska gå igenom.

Det väcker en obekväm fråga för hela den NVIDIA-centrerade AI-stacken: om den dyraste, mest energikrävande och mest riskfyllda AI:n är arbete som ingen behövde från början, varför tävlar industrin fortfarande om att köra mer av den i stället för att styra vad som överhuvudtaget ska få köras?

I dag publicerade VORTIQ-X Consilium de fullständiga resultaten från två benchmarkspår för sitt AI-styrningslager i realtid. Metodiken finns tillgänglig för granskning, och VORTIQ-X bjuder in till kritisk prövning i stället för att be marknaden om tillit. Huvudsiffrorna, och vad de betyder för verksamheten, redovisas nedan.

 Påståendet som industrin har undvikit

I tre år har AI-samtalet handlat om acceleration: fler GPU:er, fler token och högre genomströmning. NVIDIA har byggt världens mest värdefulla företag på just den premissen, och dess NeMo Guardrails adresserar en del av problemet: innehållssäkerhet.

VORTIQ-X menar att den premissen nu är ofullständig. I reglerade miljöer och miljöer med hög påverkan är den avgörande begränsningen inte hur snabbt AI körs. Den avgörande frågan är om handlingen överhuvudtaget ska få utföras, innan den flyttar pengar, exponerar data, förändrar ett system eller påverkar fysiska operationer. Det beslutet hör hemma i ett helt annat lager. Och till skillnad från acceleratorn ägs det lagret inte av en enskild leverantör.

”Acceleration kör AI. Auktoritet styr den”, säger Raymond Steen, CTO och medgrundare. ”Den strategiskt intressanta frågan för varje infrastrukturköpare är inte längre vems GPU det är, utan vem som kontrollerar handlingen ovanpå den. Det lagret är portabelt ovanpå NVIDIA-baserade stackar och ovanpå andra stackar som konkurrerar med NVIDIA.”

 Beviset: att stoppa arbetet som aldrig borde ha körts

I en två timmar lång styrd körning över 19 676 blandade AI-handlingshändelser och 18 682 försök till skyddade handlingar registrerade VORTIQ-X:

  • 1 890 routinghändelser för modellintegritet stoppades eller hölls tillbaka före modellexekvering: en stopp-/hållnivå på 38,78 % under operativ belastning i realtid.
  • 0 otillåtna godkännanden. 0 fel i routingbeslut. 0 oväntade endpointfel. 0 överträdelser av rålagring. Replayen stämde överens. Inplanterad manipulation upptäcktes.
  • Falska positiva utfall nära noll, under 1 %. I VORTIQ-X:s egna aktuella tester över åtta LLM:er på bare metal och i containeriserade enterprise-miljöer var den uppmätta nivån för falska positiva utfall noll. Den styrda routingen stoppade det som skulle stoppas utan att kväva legitimt arbete. Samma tester kördes i helt air-gappade och suveräna miljöer.
  • 6 480 av 7 200 modellanrop undveks, motsvarande 90 %, liksom 604 080 token, motsvarande 90,1 %.

I ett separat benchmarktest för dynamisk energi undvek VORTIQ-X 89,85 % av modellanropen och 89,01 % av det totala antalet token före onödig exekvering:

  • 23 930 modellanrop undveks
  • cirka 4,1 miljoner token undveks
  • 14,42 % uppmätt brutto-GPU-energi
  • 65,27 % dynamisk GPU-energi för inferens med tomgångsförbrukningen avräknad
Medan NVIDIA säljer motorn styr VORTIQ-X processen, och har just publicerat benchmarktestet som stoppar 89 % av modellanropen innan en enda GPU-cykel slösas bort

Raymond Steen, CTO och medgrundare

Besparingarna är inte en enda siffra. Beroende på arbetsbelastning betraktar VORTIQ-X en minskning på cirka 38 % av undvikbar exekvering som en konservativ lägstanivå. Den stiger mot 90,0 % undvikna modellanrop och 90,1 % undvikna token i den fyra timmar långa 27-stegskörningen, och mot 89,9 % undvikna modellanrop med 14,4 % uppmätt minskning av brutto-GPU-energi i den separata isolerade körningen för dynamisk energi. De två publicerade körningarna ligger tydligt inom detta intervall.

Poängen är inte att AI-styrning gör det första modellanropet billigare. Det gör den inte. Poängen är att ett overifierat output i ett agentbaserat arbetsflöde utlöser omförsök, fler agenter, fler verktygsanrop och efterföljande infrastrukturarbete nedströms. Den billigaste, grönaste och säkraste inferensen är den kedja som aldrig körs. VORTIQ-X stoppar den innan den förgrenar sig.

 Tillräckligt snabbt för att ligga före handlingen

Invändningen mot kontroll före exekvering har alltid varit latens. Benchmarkresultaten besvarar den invändningen direkt. De uppmätta p95-kontrolltiderna, samtidigt som modellservering, routing, lärandeöverföringar, barnsäkerhetsflöden, kontroller för dataåterställning och bevisloggning var aktiva, var:

Kontrollpunkt p95-latens
Styrd modellservering 215 ms
Kubernetes / vLLM-route 190 ms
Cyber / continuity-route 13 ms
Suveränt lärande 7 ms
PRIVENTRA-arbetsflöde 0,6 ms
Bevisloggning 0,6 ms
Authority endpoint sidecar (27 steg) 10 ms
Styrt auktoritetsbeslut (27 steg) 10 ms

 

Auktoritet är, vid dessa hastigheter, inte längre en belastning på prestandan. Det är en kontrollpunkt som handlingen passerar på väg ut.

 Vad det betyder för marknadens aktörer

För företag och koncerner som kör AI: varje undviket anrop innebär undviken tokenkostnad, undviken GPU-tid, undviken sanering och undviket CO₂, utöver den regulatoriska exponering och ansvarsrisk som kontroll före exekvering tar bort. AI-styrning upphör att vara ett kostnadscenter och blir en mätbar minskning av bortslösad beräkningskapacitet.

För leverantörer som säljer och hostar AI: VORTIQ-X är en differentierande lösning som är utformad för att inte vara beroende av den underliggande acceleratorn. En teleoperatör, en systemintegratör eller en infrastrukturleverantör kan erbjuda styrd, suveränitetsanpassad och revisionsförsvarbar AI som en helt ny affärslinje, och positionera AI-styrning i realtid mot vilken stack som helst som erbjuds en köpare, inklusive stackar byggda runt en enda dominerande acceleratorleverantör. Styrningslagret är där det hållbara, återkommande och leverantörsoberoende värdet finns.

 Komplement, inte ersättning, ovanpå varje modell och varje acceleratorlager

VORTIQ-X ersätter ingenting. Det är ett tilläggslager, placerat mellan AI-systemen och den infrastruktur de körs på, och det är utformat för att vara agnostiskt i förhållande till modeller, moln och acceleratorer. Det styr multiagent-arbetsflöden, modellanrop, RAG och verktygsanvändning, routing och robotik, och är konstruerat för privat AI, on-premise, air-gapped, bare metal eller suveräna moln. Inriktningen för driftsättning av privat AI har validerats på produktionsklassad enterprise-infrastruktur för private-cloud AI. Den immateriella egendomen är europeisk, med grundpatent inlämnade i Sverige via Patent- och registreringsverket, PRV. Lösningen är dessutom konstruerad så att datalokalisering och jurisdiktion förblir under kundens kontroll redan från designstadiet: driftsättningar körs helt inom den juridiska gräns som kunden väljer, utan beroende av någon enskild plattformsleverantör.

Den sista punkten är den som marknaden fortsätter att underskatta: ett styrningslager som är utformat för att ligga ovanpå leverantörers stackar kan inte ägas av företaget som säljer motorn.

Redo att prövas

VORTIQ-X ber inte någon att acceptera dessa siffror utan prövning. Benchmarkmetodiken är repeterbar och tillgänglig för granskning, de testade rutterna är beskrivna, och resultaten kommer att variera beroende på arbetsbelastning, modell, policykonfiguration och infrastruktur, precis som de bör. Bolagets position är enkel: ta med er egen stack, er egen accelerator och er egen reglerade arbetsbelastning, och testa om handlingen styrs innan den släpps vidare.

”Vi är inte rädda för att mätas”, säger Raymond Steen. ”Vi ber om det. Den enda AI som är värd att driftsätta i en bank, ett sjukhus, ett departement eller ett elnät är AI där ni kan bevisa att den styrdes innan den agerade. Alla som säljer acceleration borde fråga vem som äger det beviset. Svaret är inte chippet.”

 

Om VORTIQ-X Consilium

VORTIQ-X Consilium är ett teknikbolag inom AI-styrning, byggt på svensk immateriell egendom. Bolaget utvecklar deterministisk runtime-governance-infrastruktur för reglerade och verksamhetskritiska AI-miljöer, med fokus på verkställbarhet, revisionsbarhet, cybersäkerhetsskydd och suveränitetskompatibla driftsättningsmodeller i Europa, Mellanöstern och Afrika.

Relaterade Artiklar

Vi använder cookies och andra identifierare för att förbättra din upplevelse. Detta gör att vi kan säkerställa din åtkomst, analysera ditt besök på vår webbplats. Det hjälper oss att erbjuda dig ett personligt anpassat innehåll och smidig åtkomst till användbar information. Klicka på ”Jag godkänner” för att acceptera vår användning av cookies och andra identifierare eller klicka ”Mer information” för att justera dina val. Jag Godkänner Mer Information >>

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00