Så gör lingvistiken maskinlärningen ännu smartare

Tim Berners-Lee myntade en gång begreppet den semantiska webben för hur maskiner ska kunna förstå vad som står på nätet.

Christian Schömmer på Ayfie

I dag har vi kommit mycket längre och riktar mer specifikt blickarna mot lingvistik och textanalys som ett sätt att hantera den ökande mängden data. Inte minst i form av ostrukturerad data som är utspridd på webben och i olika system – utanför de traditionella databaserna.

– Maskininlärning utan lingvistik är som att leta efter en nål i en höstack. Genom att först analysera innehållet med hjälp av textanalys kan man minska datamängden och få bättre resultat av sin maskininlärning, säger Christian Schömmer på Ayfie.

Christian Schömmer är expert inom lingvistik och dataanalys på Ayfie Group. Ett bolag som nyligen bildats genom att dotterbolagen Ayfie och VirtualWorks slagits samman.

Han brinner för sök- och textanalys. Med hjälp av lingvistik och egenutvecklade verktyg arbetar han och kollegerna med att förbättra de algoritmer som används inom maskininlärning.

Verktygen har utvecklats under cirka 30 år för att förbättra företagens datakvalitet. Där ingår ordlistor med beskrivningar av termer och grammatiska regler för ett stort antal språk. Genom dessa förbyggda komponenter kan datainsamlingen bli mer strukturerad eftersom man inte behöver samla in allting.

När Christian pratar med andra företag märker han att de flesta blir oerhört förvånade över hur mycket man egentligen kan få ut av renodlade textdokument.

– Vi lägger ned mycket tid på att lagra data av olika slag. Nu måste vi bli bättre på att få ut något vettigt av den information vi har samlat på oss. När vi diskuterar digitalisering och lingvistik ser jag att folk direkt börjar fundera över vilka områden de kan sätta tänderna i, säger Christian Schömmer.

Clinton-mailen som praktiskt exempel

När Christian praktiskt ska visa vad man kan göra med hjälp av lingvistik plockar han fram ett exempel där Ayfie samlat tiotusentals Clinton-mail. Alltså de e-postmeddelanden som skickades till och från Hillary Clinton under presidentvalskampanjen 2016 och som sedan läckte ut och blev allmänt tillgängliga på nätet.

– Genom att ta bort dubbletter kan vi få ned antalet till cirka 12 000 e-postmeddelanden. Men för att få en ännu bättre överblick slår vi sedan samman e-posttrådarna så att det går att följa konversationer som hör ihop och visualisera nyckelord med hjälp av tydliga grafer, visar Christian Schömmer på skärmen.

85 procent är ostrukturerad data

Ayfie kan hantera och analysera stora mängder ostrukturerad data. Det är användbart för de flesta företag, men framförallt fokuserar Ayfie på juridik, finans och medicin.

Företagen kan analysera både sin strukturerade data i register och databaser – och den ostrukturerade som finns utspridd i exempelvis e-postprogram, webbsidor och sociala medier. I genomsnitt är cirka 85 procent av all information ostrukturerad vilket ställer stora krav på analysverktygen.

I dag används Ayfie som en sökmotor på många företag, men det går att göra så mycket mer. Till exempel skapa en sammanställning av kunddata så att företagen lättare kan uppfylla de nya GDPR-kraven som träder i kraft inom EU under maj 2018. Med lingvistik och en produkt för att klassificera PII-data kan företagen få hjälp med att hantera GDPR-utmaningarna. Dessutom underlättar lingvistiken arbetet med att gå igenom ekonomisk och juridisk information inför exempelvis företagssammanslagningar

Med hjälp av lingvistik kan man också automatisera hanteringen av juridiska dokument. Det är något som bland annat advokatfirmor i USA brottas med när de hanterar högar med utskrifter av legala dokument som OCR-scannas.

Stor uppsättning verktyg

Ayfie har en uppsättning olika verktyg som man kan välja efter behov – antingen ett och ett eller i kombinationer. En del av ursprunget till dagens produkter hittar man i bolaget Language Tools som köptes av VirtualWorks 2016. I mars 2018 slogs sedan VirtualWorks samman med Ayfie som bland annat utvecklat smarta sökfunktioner.

Bland produkterna finns Ayfie Inspector som används för att analysera stora datamängder. Med Ayfie Locator får man ett gemensamt verktyg för att komma åt data som kan finnas utspridda på en mängd olika system. Ayfie Supervisor används för rapportering och GDPR-efterlevnad och Ayfie Predictor för smart sökning.

Skanska – en av de största kunderna i Sverige

En av Ayfies största kunder i Sverige är Skanska där sökning var ett av problemen med deras globala intranät. Medarbetarna klagade på att det inte fanns funktioner för bland annat sökning i andra IT-källor, utökat språkstöd, synonymförslag och OCR. Sökningen utgick inte från medarbetarnas roll och deras land så Skanska ville ha en mycket mer utbyggd sökfunktion över hela företaget.

Bland de internationella kunderna finns också Siemens division för turbiner. Där analyserar Ayfie felloggar genom att automatiskt koppla samman uppkomna fel med rätt felkod. Av totalt 3 000 koder lyckas Ayfie nå en precision på hela 97 procent.

En annan stor kund är den stora tyska matkedjan Metro som levererar livsmedel till företag. Ayfie har byggt upp lexikon, synonymordlistor och morfologiska beskrivningar som gör det ännu enklare för kunderna att köpa produkter på nätet genom att de får konkreta förslag på vad de ska söka efter.