Tag Archief van: dynamic data labelling

Kunstmatige intelligentie is slechts zo goed als datalabeling

Gegevenslabeling met SynerScope

Recente gebeurtenissen in mijn thuisland inspireerden mij tot het schrijven van deze blog. Dagelijks horen wij verhalen over bedrijven en overheidsorganisaties die moeite hebben om individuele dossiers of zaken voldoende te begrijpen. Kennislacunes en gebrek aan toegang tot goede informatie schaden het welzijn van individuen en organisaties. Soms wordt de welvaart van de samenleving zelf aangetast. Bijvoorbeeld bij grootschalige financiële criminaliteit en saneringszaken in het bank- en verzekeringswezen, bij de overheid en bij pandemieën.

We hebben gewoon weinig inzicht in de gegevens, wat betekent dat AI en analytics zijn ingesteld om te falen. Bovendien is het moeilijk te zien welke gegevens we kunnen of mogen verzamelen om mens-computer processen uit te voeren om relevante informatie te extraheren om die problemen op te lossen.

Onbeperkt dataverkeer zonder applicatie

De COVID19-pandemie laat niet alleen zien hoe moeilijk het is om de juiste gegevens te genereren, maar ook hoe moeilijk het is om bestaande gegevens te gebruiken. Daarom vertoont gegevensgestuurde besluitvorming vaak hiaten in het begrip van gegevens.

Banken besteden miljarden aan technologie en mensen in KYC-, AML- en klantherstelprocessen. Toch voldoen ze nog steeds niet volledig aan de gewenste regelgevingsdoelstellingen.

Ook regeringen hebben moeite met gegevens. Recente schandalen bij de Nederlandse belastingdienst, zoals de Toeslagenaffaire, laten bijvoorbeeld zien hoe moeilijk het is om tienduizenden gevallen te behandelen die moeten worden gesaneerd. En het Nederlandse ministerie van Economische Zaken worstelt met de vaststelling van individuele schadevergoedingen in Groningen, waar aardbevingen door gaswinning huizen hebben beschadigd.

Tegenwoordig is de wereld in ongelooflijke mate gedigitaliseerd. Dus overschat de samenleving, van burgers tot pers en politici en het rechtssysteem, het vermogen van organisaties om de juiste informatie te halen uit de gegevens die zo overvloedig beschikbaar zijn.

Die organisaties, hun datawetenschappers, IT-teams, cloudleveranciers en geleerden hebben immers een wereld van welzijn en welwillendheid beloofd op basis van data en AI. Maar dat ze die beloften niet nakomen is zeker geen teken dat de complottheorieën waar zijn. Het laat eerder de grenzen zien van AI in een wereld waarin organisaties minder dan de helft begrijpen van de gegevens die ze hebben wanneer deze niet in een staat verkeren die gereed is voor machinale verwerking. Immers, als je niet weet wat je hebt, kun je ook niet zeggen welke gegevens je mist.

De helft van alle gegevens zijn donkere gegevens

Gartner bedacht de term “Dark Data” om te verwijzen naar die helft van alle gegevens waar we niets van weten. En, als Donkere Materie zoveel invloed heeft in ons universum, zouden Donkere Gegevens dan niet een soortgelijke invloed kunnen hebben op ons vermogen om informatie en kennis uit de gegevens te halen?

We zijn te veel in de droom van AI gaan geloven, want wat als donkere gegevens zich gedragen als donkere materie? Door overschatting van wat mogelijk is met gegevensgestuurde besluitvorming, kunnen mensen geloven dat de machthebbers deze gegevens manipuleren.

Het drijvende concept van SynerScope is gebaseerd op onze technologie om Dark Data binnen organisaties te beoordelen. Door onze donkere gegevens beter te begrijpen, kunnen we onze wereld beter begrijpen en betere resultaten halen uit menselijke en computerintelligentie (AI) samen.

Algoritmen vertrouwen op gelabelde datasets

De huidige AI, DL (Deep Learning) en ML (Machine Learning) hebben gegevens nodig om te leren – en veel gegevens. Gegevensvertekening is een echt probleem voor dat proces. Hoe beter de opleidingsgegevens zijn, hoe beter het model presteert. De kwaliteit en kwantiteit van de opleidingsgegevens hebben dus evenveel invloed op het succes van een AI-project als de algoritmen zelf.

Helaas zijn ongestructureerde gegevens en zelfs sommige goed gestructureerde gegevens niet zodanig gelabeld dat zij geschikt zijn als trainingsset voor modellen. Voor sentimentanalyse zijn bijvoorbeeld slang- en sarcasmalabels nodig. Chatbots vereisen entiteitsextractie en zorgvuldige syntactische analyse, niet alleen ruwe taal. Een AI voor autonoom rijden heeft straatbeelden nodig met daarop voetgangers, fietsers, straatnaamborden, enz.

Goede modellen vereisen solide gegevens als sterke basis. Maar hoe labelen we de gegevens die ons kunnen helpen die basis te verbeteren. Voor chatbots, voor zelfrijdende voertuigen, en voor de mechanismen achter klantherstel, fraudepreventie, steunprogramma’s van de overheid, pandemieën, en boekhouding onder IFRS?

Regelgeving en pandemieën komen in dezelfde zin voor omdat ze vanuit het oogpunt van gegevens vergelijkbaar zijn. In beide gevallen gaat het om een plotselinge of onopgemerkte komst die ons verplicht nieuwe informatie uit bestaande gegevens te halen. Die nieuwe informatie is voor AI alleen haalbaar als de opleidingsgegevens met dat doel voor ogen zijn gelabeld.

Ik zal het uitleggen met een eenvoudig voorbeeld van zelfrijdende voertuigen. Tegenwoordig worden trainingsgegevens gelabeld voor voetgangers, fietsen, auto’s, vrachtwagens, verkeersborden, kinderwagens, enz. Wat als we morgen besluiten dat de AI zich ook moet aanpassen aan de hogere snelheid van elektrische fietsen? U zult een enorme operatie nodig hebben om nieuwe gegevens te verzamelen en die gegevens opnieuw te trainen, aangezien de huidige modellen waarschijnlijk niet goed zullen presteren voor deze nieuwe vraag.

Bedrijven die softwaresystemen gebruiken met reeds bestaande meta-gegevensmodellen of bedrijfswoordenlijsten hebben dezelfde grenzen. Zij werken door labels te selecteren en aan te brengen zonder een label aan de inhoud te ontlenen – anders moeten zij met de hand labelen, wat arbeids- en tijdsintensief is – en vaak te veel om dit onder de druk van grootschalige schandalen en crises te kunnen doen.

Automatische gegevenslabeling en SynerScope

De noodzaak om gegevens aan te passen voor plotselinge crises laat geen handmatige etikettering toe. In plaats daarvan is automatische etikettering een betere keuze. Maar, zoals we weten uit mislukkingen van organisaties en van de overheid, is AI alleen niet nauwkeurig genoeg om rekening te houden met individuele inhoud.

Voor SynerScope moet de inhoud zelf altijd bepalend zijn voor de beschrijvende etikettering. De etiketteringsmethode moet altijd meegroeien met de inhoud. Daarom gebruiken wij een combinatie van algoritmeautomatisering en menselijk toezicht, om het beste van beide werelden samen te brengen – voor een snelle en efficiënte gegevenslabeling.

Als u meer wilt weten over hoe onze etikettering werkt, neem dan gerust contact met ons op via info@synerscope.com.

Dynamische datalabeling gebruiken om bedrijfswaarde te creëren

Dynamische gegevenslabeling met Ixivault

Voordat u enige waarde aan gegevens kunt ontlenen, moet u relevante gegevens vinden en ophalen. Met zoeken kun je dat doel bereiken. Wil “zoeken” echter werken, dan zijn er twee dingen nodig: Een zoekterm moet door mensen worden gedefinieerd; gegevens moeten worden geïndexeerd zodat de computer ze kan vinden met kosten- en snelheidsefficiëntie en om de gebruiker bezig te houden. Maar de zoekefficiëntie wordt ondermijnd door de omvang van alle beschikbare gegevens en de aanwezigheid van dark data (zonder indexen of labels), zowel vanuit financieel oogpunt als vanuit het oogpunt van de reactietijd.

Technologieën als bedrijfszoeken zijn om die reden nooit van de grond gekomen. Zonder labels is het niet effectief om een systeem te vragen resultaten uit de gegevens te selecteren. Op het moment dat de gegevens worden gecreëerd, weet de maker precies wat een bestand bevat. Maar met het verstrijken van de tijd laat ons geheugen het afweten, en andere mensen kunnen worden belast met het vinden en opvragen van gegevens, lang nadat wij verder zijn gegaan. Het doorzoeken van gegevens in bedrijfsapplicaties betekent vaak dat elk geregistreerd onderwerp of object moeizaam moet worden opgezocht. Voor eindgebruikerstoepassingen zoals MS Office ontbreekt zelfs die mogelijkheid. Zonder goede labels zijn zoek- en vindmogelijkheden vrijwel onmogelijk. En terwijl de mensen die gegevens creëren precies weten wat erin staat, kunnen de mensen die daarna komen, en de programma’s die we maken om die gegevens te beheren, niet dezelfde mentale truc uithalen om betekenis te halen uit ongesorteerde gegevens.

Bij SynerScope bieden we een oplossing om gemakkelijk gegevens te herstellen die in de loop der tijd verloren zijn gegaan of vanaf het begin vaag gedefinieerd waren. Wij tillen dergelijke “onbekende” gegevens eerst in een geautomatiseerde, op AI gebaseerde, sorteermachine. Eenmaal gesorteerd schakelen wij een menselijke dataspecialist in, die dan kan werken met subgroepen van gegevens in plaats van individuele bestanden. Nogmaals, zonder toezicht, onze oplossing presenteert de gebruiker de onderscheidende woorden die elke subgroep ten opzichte van elkaar vertegenwoordigen. In wezen presenteert de AI de voornaamste labelopties voor bestanden en inhoud in elke subgroep, ongeacht de grootte in aantal bestanden, pagina’s of paragrafen. De menselijke beoordelaar hoeft alleen een labeloptie te selecteren en te controleren, in plaats van de zware taak van het genereren van labels op zich te nemen.

Aldus gelabeld zijn de gegevens klaar voor de gevestigde processen voor bedrijfsgegevens. Catalogiseren, toegangsbeheer, analyse, AI, machine learning en sanering zijn gemeenschappelijke einddoelen voor data nadat Synerscope Ixivault metadata en labels genereert.

SynerScope maakt ook een voortdurende, dynamische herlabeling van gegevens mogelijk als er nieuwe behoeften ontstaan. Dat is belangrijk in dit tijdperk van snelle digitale groei, met een constant spervuur van nieuwe vragen en digitale behoeften. De analyse- en informatie-extractiemogelijkheden van Ixivault kunnen gemakkelijk, snel en nauwkeurig evolueren en zich aanpassen aan toekomstige vereisten.

Hoe komen ongelabelde gegevens tot stand?

Er worden voortdurend gegevens gecreëerd en verzameld. Wanneer werknemers gegevens vastleggen of creëren, voegen zij toe aan bestanden en logboeken. Mensen zijn ook heel goed in het mentaal categoriseren van gegevens – we kunnen met gemak navigeren door de meest recente gegevens, ongesorteerd en al. Of het nu gaat om het navigeren door een stapel papieren of geneste mappen – onze associatieve hersenen kunnen het algemene idee onthouden van wat er in elke stapel gegevens zit – zolang die gegevens niet bewegen. Maar we zijn erg beperkt door de schaal die we aankunnen. Wij hebben mentale beelden van geleerden en professoren die werken in kamers waar de gegevens overal tot aan het plafond zijn opgestapeld, maar waar weinig werd schoongemaakt. Dit paradigma geldt niet voor digitale gegevens in ondernemingen. Samenwerking, analyse, AI-behoeften en regelgeving leggen altijd een te grote druk op weten waar gegevens zijn.

Catalogi en classificatieoplossingen kunnen helpen, maar het automatiseringsniveau voor het vulproces is te laag. Dat leidt tot hiaten en achterstanden in de etiketteringsgegevens. De AI voor volledig automatisch labelen is er nog niet. Het catalogiseren en classificeren van bedrijfsdocumentatie is nog moeilijker dan het classificeren van digitale beelden en videobeelden.

Digitale jumelage en het leveren van waarde met gegevens

Vóór breedband bestond er niet zoiets als een digitale tweeling voor mensen, door de mens gemaakte voorwerpen of natuurlijke objecten. Alleen noodzakelijke informatie werd opgeslagen in op toepassingen gebaseerde gegevenssilo’s. In 2007 veranderde dat door de komst van de iPhone en de revolutie op het gebied van mobiele en mobiele apparaten. Iedereen en alles was online, de hele tijd, en genereerde voortdurend gegevens. De digitale tweeling, een verzameling gegevens die een echte persoon of een natuurlijk of door de mens gemaakt voorwerp voorstelt, was geboren.

In de meeste organisaties blijven deze digitale tweelingenmeestal in het ongewisse. De meeste organisaties verzamelen enorme hoeveelheden gegevens over klanten, klantcases, accounts en projecten. Het blijft in het duister omdat het in silo’s wordt samengesteld, opgeslagen en gebruikt. Wanneer de mensen die de gegevens hebben gecreëerd met pensioen gaan of naar een ander bedrijf verhuizen, vervagen de betekenis en de inhoud ervan snel – omdat niemand anders weet wat er is of waarom. En zonder de juiste labels kunnen uw systemen er moeilijk mee omgaan.

GDPR, HIPPA, CCPA enz. dwingen organisaties te begrijpen welke gegevens ze hebben over echte mensen, en ze eisen hetzelfde voor alle historische gegevens die zijn opgeslagen uit de tijd voordat die voorschriften bestonden.

Regelgeving evolueert, technologieën evolueren, markten evolueren en uw bedrijf evolueert, wat allemaal leidt tot zeer dynamische veranderingen in wat u van uw gegevens moet weten. Als je wilt bijblijven
,
ervoor zorgen dat u die gegevens kunt gebruiken om de bedrijfswaarde te verhogen – terwijl u onnodige risico’s van bedrijfsvoorschriften, gegevensbescherming en beveiligingsvoorschriften vermijdt – moet u uw gegevens kunnen doorzoeken. Gebeurt dit niet, dan kunt u verstrikt raken in een chaotische saneringsprocedure, vergezeld van ongesorteerde gegevens die de onrust niet verminderen, maar de chaos juist vergroten.

Dynamische gegevenslabeling met Ixivault

Ixivault helpt u om gegevens op een flexibele, efficiënte manier af te stemmen op nieuwe realiteiten, met een dynamisch, zwak gesuperviseerd systeem voor gegevenslabeling. De applicatie wordt geïnstalleerd in uw eigen beveiligde Microsoft Azure client-tenant, waarbij gebruik wordt gemaakt van de gegevensopslag die u hebt opgezet en beheerd, zodat alle gegevens altijd veilig onder uw beheer blijven. Onze oplossing, met haar vermogen om gegevens te sorteren, helpt al uw medewerkers – van LOB tot IT – om gegevens te categoriseren, classificeren en labelen op inhoud – waardoor ze in wezen uit het duister worden gehaald.

Uw gegevens zijn dan toegankelijk voor al uw digitale processen. Ixivault toont situaties en objecten gegroepeerd op gelijkenis van documentatie en beeldopnames en stelt u in staat groepen te vergelijken op verschillen in de inhoud. Dit vereenvoudigt en versnelt het toekennen van labels aan de gegevens. Elke activiteit waarbij gevallen, objecten, situaties, gegevens of een toetsing aan vastgestelde normen moeten worden vergeleken, wordt eenvoudig gemaakt. Ixivault verbetert ook de kwaliteit van de dataselectie, wat helpt bij een reeks toepassingen, van Know Your Customer en Customer Due Diligence tot analyses en AI-gebaseerde voorspellingen op basis van historische gegevens.

Verzekeringsmaatschappijen kunnen die gegevens bijvoorbeeld gebruiken om vergelijkbare gevallen te vinden, ze te koppelen aan risico’s en premietarieven, en zo uitschieters op te sporen – zodat het bedrijf kan ingrijpen bij de prijsstelling, de acceptatie of de binding, of allemaal.

Het type dynamische etikettering van SynerScope creëert mogelijkheden om snel en flexibel alle gegevens te matchen.. Naarmate de perceptie en de culturele toepassingen van gegevens in de loop der tijd veranderen, kunt u ook gegevens afstemmen op de evoluerende behoeften inzake informatie-extractie, labels wijzigen naarmate de gegevenscontext verandert, en waarde blijven halen uit de gegevens waarover u beschikt.

Als u meer wilt weten over Ixivault of de dynamic matching mogelijkheden in uw organisatie, neem dan contact met ons op voor persoonlijke informatie.