[KUNSKAPSSAMARBETE] Generativ AI är inte bara ett tekniskt modeord – det är ett paradigmskifte.
För dig som redan jobbar som maskininlärningsingenjör kan steget mot generativa modeller kännas både lockande och överväldigande.
Vad krävs egentligen för att gå från traditionella ML-modeller till att arbeta med de mest avancerade generativa systemen som ChatGPT eller Stable Diffusion? Här går vi igenom tekniken, resurserna – och vägen dit.
Förstå begränsningarna – innan du börjar
De mest kraftfulla modellerna, som LLaMA från Meta eller GPT från OpenAI, kräver enorm datorkraft. För att ge ett exempel: när Meta tränade sina senaste LLaMA 3-modeller använde de över 16 000 GPU:er samtidigt och nådde över 400 TFLOPS per GPU – en nivå som är omöjlig att nå utan ett industriellt datacenter. Detta innebär att grundträningen (pretraining) av dessa modeller i praktiken endast är möjlig för jättar som Meta, Google och OpenAI.
Tre faser av modellträning
- Pretraining
Modellen tränas på enorma mängder text för att lära sig språkets struktur genom att förutse nästa ord. Detta är den mest resurskrävande fasen. - Finjustering (Instruction Fine-Tuning)
Här anpassas modellen till specifika uppgifter, till exempel att sammanfatta texter eller svara på frågor. Du kan använda öppna modeller som LLaMA 2 eller Mistral och finjustera dem på mindre dataset. - Förbättring med förstärkningsinlärning (Reinforcement Learning Fine-Tuning)
Slutligen förfinas modellen med hjälp av användarfeedback för att förbättra svarens kvalitet och relevans.
För mindre aktörer är det främst fas två och tre som är relevanta – och där är det fullt möjligt att vara med och bidra.
Vilken hårdvara behövs?
Att arbeta med generativa AI-modeller kräver rätt utrustning. Nedan listas exempel på VRAM-krav för olika modeller inom datorseende (CV):
Modell | Inferens | Träning |
YOLO v8x | 654 MB | 6.6 GB |
Stable Diffusion XL | 12 GB | 24 GB |
UNet++ | 4.5 GB | 10 GB |
EfficientNet v2 m | 300 MB | 4 GB |
Observera att kraven varierar beroende på bildstorlek och batchstorlek.
Var ska du träna dina modeller? – Lokalt vs. Moln
Lokalt kluster
- Hög engångskostnad (ex: NVIDIA A100 kostar 100 000–150 000 kr).
- Full kontroll, inga löpande hyrkostnader.
- Bra för långsiktiga projekt med återkommande behov.
Molntjänster
- Flexibelt, betala per användning (ex: 30–40 kr/h för en A100).
- Snabb uppskalning utan hårdvaruköp.
- Idealisk för korta projekt och proof-of-concepts.
Vår rekommendation: Molntjänster ger bäst balans mellan flexibilitet och tillgänglighet – särskilt för mindre team och snabbare iteration.
Hur lång tid tar ett projekt?
Projektstorlek | Tid (ca) | Exempel |
Enkla projekt | 1–2 veckor | Explorativ dataanalys |
Mellansvåra projekt | 3–6 veckor | Bildigenkänning, tidsserieprognoser |
Avancerade projekt | 6+ veckor | NLP-modeller, egen datainsamling |
Kom ihåg: Modellträning är bara en del av helheten. Datapreparering, organisation och pipeline-utveckling tar ofta mer tid än själva träningen.
Slutsats – din väg in i generativ AI
Det räcker inte längre med att experimentera med API:er och promptteknik. Att finjustera modeller för specifika ändamål är det verkliga steget mot användbar och innovativ AI.
Att tänka på:
- Lokalt kluster: Dyrt att starta, men kostnadseffektivt i längden.
- Molnlösning: Flexibelt och snabbt – men se upp för ackumulerade kostnader.
- Välj efter behov: Hur ofta och hur mycket du tränar bör styra ditt val.
Av Maksym Maiboroda, Junior Data Scientist på Sigma Software Group
Artikeln är ett kunskapsamarbete mellan Sigma Software Group och IT Media Group. Sponsrade inlägg och kunskapsamarbeten är en del av IT Media Groups annonserbjudande. Om du har frågor kring sponsrade inlägg, hör av dig till info@itmediagroup.se