Kunstmatige intelligentie is slechts zo goed als datalabeling
Gegevenslabeling met SynerScope
Recente gebeurtenissen in mijn thuisland inspireerden mij tot het schrijven van deze blog. Dagelijks horen wij verhalen over bedrijven en overheidsorganisaties die moeite hebben om individuele dossiers of zaken voldoende te begrijpen. Kennislacunes en gebrek aan toegang tot goede informatie schaden het welzijn van individuen en organisaties. Soms wordt de welvaart van de samenleving zelf aangetast. Bijvoorbeeld bij grootschalige financiële criminaliteit en saneringszaken in het bank- en verzekeringswezen, bij de overheid en bij pandemieën.
We hebben gewoon weinig inzicht in de gegevens, wat betekent dat AI en analytics zijn ingesteld om te falen. Bovendien is het moeilijk te zien welke gegevens we kunnen of mogen verzamelen om mens-computer processen uit te voeren om relevante informatie te extraheren om die problemen op te lossen.
Onbeperkt dataverkeer zonder applicatie
De COVID19-pandemie laat niet alleen zien hoe moeilijk het is om de juiste gegevens te genereren, maar ook hoe moeilijk het is om bestaande gegevens te gebruiken. Daarom vertoont gegevensgestuurde besluitvorming vaak hiaten in het begrip van gegevens.
Banken besteden miljarden aan technologie en mensen in KYC-, AML- en klantherstelprocessen. Toch voldoen ze nog steeds niet volledig aan de gewenste regelgevingsdoelstellingen.
Ook regeringen hebben moeite met gegevens. Recente schandalen bij de Nederlandse belastingdienst, zoals de Toeslagenaffaire, laten bijvoorbeeld zien hoe moeilijk het is om tienduizenden gevallen te behandelen die moeten worden gesaneerd. En het Nederlandse ministerie van Economische Zaken worstelt met de vaststelling van individuele schadevergoedingen in Groningen, waar aardbevingen door gaswinning huizen hebben beschadigd.
Tegenwoordig is de wereld in ongelooflijke mate gedigitaliseerd. Dus overschat de samenleving, van burgers tot pers en politici en het rechtssysteem, het vermogen van organisaties om de juiste informatie te halen uit de gegevens die zo overvloedig beschikbaar zijn.
Die organisaties, hun datawetenschappers, IT-teams, cloudleveranciers en geleerden hebben immers een wereld van welzijn en welwillendheid beloofd op basis van data en AI. Maar dat ze die beloften niet nakomen is zeker geen teken dat de complottheorieën waar zijn. Het laat eerder de grenzen zien van AI in een wereld waarin organisaties minder dan de helft begrijpen van de gegevens die ze hebben wanneer deze niet in een staat verkeren die gereed is voor machinale verwerking. Immers, als je niet weet wat je hebt, kun je ook niet zeggen welke gegevens je mist.
De helft van alle gegevens zijn donkere gegevens
Gartner bedacht de term “Dark Data” om te verwijzen naar die helft van alle gegevens waar we niets van weten. En, als Donkere Materie zoveel invloed heeft in ons universum, zouden Donkere Gegevens dan niet een soortgelijke invloed kunnen hebben op ons vermogen om informatie en kennis uit de gegevens te halen?
We zijn te veel in de droom van AI gaan geloven, want wat als donkere gegevens zich gedragen als donkere materie? Door overschatting van wat mogelijk is met gegevensgestuurde besluitvorming, kunnen mensen geloven dat de machthebbers deze gegevens manipuleren.
Het drijvende concept van SynerScope is gebaseerd op onze technologie om Dark Data binnen organisaties te beoordelen. Door onze donkere gegevens beter te begrijpen, kunnen we onze wereld beter begrijpen en betere resultaten halen uit menselijke en computerintelligentie (AI) samen.
Algoritmen vertrouwen op gelabelde datasets
De huidige AI, DL (Deep Learning) en ML (Machine Learning) hebben gegevens nodig om te leren – en veel gegevens. Gegevensvertekening is een echt probleem voor dat proces. Hoe beter de opleidingsgegevens zijn, hoe beter het model presteert. De kwaliteit en kwantiteit van de opleidingsgegevens hebben dus evenveel invloed op het succes van een AI-project als de algoritmen zelf.
Helaas zijn ongestructureerde gegevens en zelfs sommige goed gestructureerde gegevens niet zodanig gelabeld dat zij geschikt zijn als trainingsset voor modellen. Voor sentimentanalyse zijn bijvoorbeeld slang- en sarcasmalabels nodig. Chatbots vereisen entiteitsextractie en zorgvuldige syntactische analyse, niet alleen ruwe taal. Een AI voor autonoom rijden heeft straatbeelden nodig met daarop voetgangers, fietsers, straatnaamborden, enz.
Goede modellen vereisen solide gegevens als sterke basis. Maar hoe labelen we de gegevens die ons kunnen helpen die basis te verbeteren. Voor chatbots, voor zelfrijdende voertuigen, en voor de mechanismen achter klantherstel, fraudepreventie, steunprogramma’s van de overheid, pandemieën, en boekhouding onder IFRS?
Regelgeving en pandemieën komen in dezelfde zin voor omdat ze vanuit het oogpunt van gegevens vergelijkbaar zijn. In beide gevallen gaat het om een plotselinge of onopgemerkte komst die ons verplicht nieuwe informatie uit bestaande gegevens te halen. Die nieuwe informatie is voor AI alleen haalbaar als de opleidingsgegevens met dat doel voor ogen zijn gelabeld.
Ik zal het uitleggen met een eenvoudig voorbeeld van zelfrijdende voertuigen. Tegenwoordig worden trainingsgegevens gelabeld voor voetgangers, fietsen, auto’s, vrachtwagens, verkeersborden, kinderwagens, enz. Wat als we morgen besluiten dat de AI zich ook moet aanpassen aan de hogere snelheid van elektrische fietsen? U zult een enorme operatie nodig hebben om nieuwe gegevens te verzamelen en die gegevens opnieuw te trainen, aangezien de huidige modellen waarschijnlijk niet goed zullen presteren voor deze nieuwe vraag.
Bedrijven die softwaresystemen gebruiken met reeds bestaande meta-gegevensmodellen of bedrijfswoordenlijsten hebben dezelfde grenzen. Zij werken door labels te selecteren en aan te brengen zonder een label aan de inhoud te ontlenen – anders moeten zij met de hand labelen, wat arbeids- en tijdsintensief is – en vaak te veel om dit onder de druk van grootschalige schandalen en crises te kunnen doen.
Automatische gegevenslabeling en SynerScope
De noodzaak om gegevens aan te passen voor plotselinge crises laat geen handmatige etikettering toe. In plaats daarvan is automatische etikettering een betere keuze. Maar, zoals we weten uit mislukkingen van organisaties en van de overheid, is AI alleen niet nauwkeurig genoeg om rekening te houden met individuele inhoud.
Voor SynerScope moet de inhoud zelf altijd bepalend zijn voor de beschrijvende etikettering. De etiketteringsmethode moet altijd meegroeien met de inhoud. Daarom gebruiken wij een combinatie van algoritmeautomatisering en menselijk toezicht, om het beste van beide werelden samen te brengen – voor een snelle en efficiënte gegevenslabeling.
Als u meer wilt weten over hoe onze etikettering werkt, neem dan gerust contact met ons op via info@synerscope.com.