Det blir allt svårare för företagen att samla in den data de behöver för att träna verksamhetens artificiella intelligens.
Vanliga användare vill inte längre dela med sig av sina egna data så att den kan användas för träningen.
För företag som vill använda AI i verksamheten blir detta en svår uppgift att lösa. Redan idag har många företag problem med datakvalitet, och den ökade AI-användningen riskerar att göra problemen ännu större.
När generativ AI slog igenom blev data värt guld, eftersom alla som vill utveckla en AI-modell behöver stora mängder data för att träna den. Det behövs samlas in så mycket relevant information som möjligt från internet, kunder, användare och alla andra möjliga håll där det går att hitta data. Ingen verkade heller bry sig om att deras data användes, men detta ändrades snabbt. Ganska snart insåg någon att deras data utnyttjats utan godkännande och att säkerheten kunde vara i fara.
Regelrätta sabotage mot datainsamling
När en av de stora amerikanska teknikjättarna nyligen uppdaterade sina användarvillkor hade de inte förstått att vindarna vänt. I villkoren stod det att användares data får utnyttjas för att träna företagets AI-modeller. Den här gången lät inte motståndet från användarna vänta på sig.
Snart började någon att ”förgifta” data, vilket innebär att till exempel bilder görs om så att de blir svåranvända eller direkt skadliga att ha med i träningsdatan. Speciella applikationer som till exempel Nightshade har tagits fram för att enkelt lägga in detaljer i bilder som gör att AI:n tolkar bilderna fel. I värsta fall kan en AI-modell som tränats på bilderna ge helt felaktiga svar på olika frågor.
Syftet är förstås att se till att det blir svårt, omöjligt eller skadligt att använda bilderna för träning. De som äger rättigheterna till bilderna vill se till att de är de själva som bestämmer om bilderna får användas – och ofta vill de i så fall ha ersättning för att de används.
Då ska man också veta att 56% av de svenska företagen redan idag har problem med att partiska data används i beslutsfattande, enligt den undersökning som vi på Progress genomförde nyligen. Det här problemet riskerar att förvärras ju mer AI används, eftersom högkvalitativa data är avgörande för att besluten ska bli bra.
Hur kan företagen gå vidare?
Den som ska träna en ny AI-modell kan alltså tvingas betala för att använda information som ägs av någon annan. För företagen kan det här innebära att det blir för dyrt eller omöjligt att träna AI-modeller. Det är säkert lockande för dem att göra som företaget jag nämnde här ovanför, det vill säga ändra användarvillkoren så att de kan använda kundernas data som de vill. Risken är dock att det kan slå tillbaka på dem själva. Bättre då att vara transparent gentemot användarna, informera hur deras data ska användas, och om vilken nytta den gör.
Det är däremot ingen bra idé att träna AI-modeller med data som det inte går att lita på. Enligt vår egen undersökning är det alltså idag många företag som själva upplever att de inte har en tillräcklig kvalitetskontroll i fråga om den data som används, vilket sedan kan leda till en AI som inte fungerar tillräckligt bra. En rad exempel visar att detta kan leda till allt från dåliga affärsbeslut till diskriminering av olika grupper i företaget och samhället.
Fler och fler företag förstår därför att den data som används för AI-ändamål behöver vara av hög kvalitet. Frågor som integritet och säkerhet behöver vara under kontroll. Relevanta och högkvalitativa data får därmed ett högre värde. Allt detta är dock bara möjligt om företagen ser till att användarna är nöjda med att deras data används på detta sätt. Missnöjda användare har annars möjlighet att ställa till det ordentligt för företagen. Redan nu säger 74 % av svenska företagen att de måste göra mer för att ta itu med färgade data. Den siffran kommer sannolikt öka framöver.