Tag Archief van: Dark Data

Kunstmatige intelligentie is slechts zo goed als datalabeling

Gegevenslabeling met SynerScope

Recente gebeurtenissen in mijn thuisland inspireerden mij tot het schrijven van deze blog. Dagelijks horen wij verhalen over bedrijven en overheidsorganisaties die moeite hebben om individuele dossiers of zaken voldoende te begrijpen. Kennislacunes en gebrek aan toegang tot goede informatie schaden het welzijn van individuen en organisaties. Soms wordt de welvaart van de samenleving zelf aangetast. Bijvoorbeeld bij grootschalige financiële criminaliteit en saneringszaken in het bank- en verzekeringswezen, bij de overheid en bij pandemieën.

We hebben gewoon weinig inzicht in de gegevens, wat betekent dat AI en analytics zijn ingesteld om te falen. Bovendien is het moeilijk te zien welke gegevens we kunnen of mogen verzamelen om mens-computer processen uit te voeren om relevante informatie te extraheren om die problemen op te lossen.

Onbeperkt dataverkeer zonder applicatie

De COVID19-pandemie laat niet alleen zien hoe moeilijk het is om de juiste gegevens te genereren, maar ook hoe moeilijk het is om bestaande gegevens te gebruiken. Daarom vertoont gegevensgestuurde besluitvorming vaak hiaten in het begrip van gegevens.

Banken besteden miljarden aan technologie en mensen in KYC-, AML- en klantherstelprocessen. Toch voldoen ze nog steeds niet volledig aan de gewenste regelgevingsdoelstellingen.

Ook regeringen hebben moeite met gegevens. Recente schandalen bij de Nederlandse belastingdienst, zoals de Toeslagenaffaire, laten bijvoorbeeld zien hoe moeilijk het is om tienduizenden gevallen te behandelen die moeten worden gesaneerd. En het Nederlandse ministerie van Economische Zaken worstelt met de vaststelling van individuele schadevergoedingen in Groningen, waar aardbevingen door gaswinning huizen hebben beschadigd.

Tegenwoordig is de wereld in ongelooflijke mate gedigitaliseerd. Dus overschat de samenleving, van burgers tot pers en politici en het rechtssysteem, het vermogen van organisaties om de juiste informatie te halen uit de gegevens die zo overvloedig beschikbaar zijn.

Die organisaties, hun datawetenschappers, IT-teams, cloudleveranciers en geleerden hebben immers een wereld van welzijn en welwillendheid beloofd op basis van data en AI. Maar dat ze die beloften niet nakomen is zeker geen teken dat de complottheorieën waar zijn. Het laat eerder de grenzen zien van AI in een wereld waarin organisaties minder dan de helft begrijpen van de gegevens die ze hebben wanneer deze niet in een staat verkeren die gereed is voor machinale verwerking. Immers, als je niet weet wat je hebt, kun je ook niet zeggen welke gegevens je mist.

De helft van alle gegevens zijn donkere gegevens

Gartner bedacht de term “Dark Data” om te verwijzen naar die helft van alle gegevens waar we niets van weten. En, als Donkere Materie zoveel invloed heeft in ons universum, zouden Donkere Gegevens dan niet een soortgelijke invloed kunnen hebben op ons vermogen om informatie en kennis uit de gegevens te halen?

We zijn te veel in de droom van AI gaan geloven, want wat als donkere gegevens zich gedragen als donkere materie? Door overschatting van wat mogelijk is met gegevensgestuurde besluitvorming, kunnen mensen geloven dat de machthebbers deze gegevens manipuleren.

Het drijvende concept van SynerScope is gebaseerd op onze technologie om Dark Data binnen organisaties te beoordelen. Door onze donkere gegevens beter te begrijpen, kunnen we onze wereld beter begrijpen en betere resultaten halen uit menselijke en computerintelligentie (AI) samen.

Algoritmen vertrouwen op gelabelde datasets

De huidige AI, DL (Deep Learning) en ML (Machine Learning) hebben gegevens nodig om te leren – en veel gegevens. Gegevensvertekening is een echt probleem voor dat proces. Hoe beter de opleidingsgegevens zijn, hoe beter het model presteert. De kwaliteit en kwantiteit van de opleidingsgegevens hebben dus evenveel invloed op het succes van een AI-project als de algoritmen zelf.

Helaas zijn ongestructureerde gegevens en zelfs sommige goed gestructureerde gegevens niet zodanig gelabeld dat zij geschikt zijn als trainingsset voor modellen. Voor sentimentanalyse zijn bijvoorbeeld slang- en sarcasmalabels nodig. Chatbots vereisen entiteitsextractie en zorgvuldige syntactische analyse, niet alleen ruwe taal. Een AI voor autonoom rijden heeft straatbeelden nodig met daarop voetgangers, fietsers, straatnaamborden, enz.

Goede modellen vereisen solide gegevens als sterke basis. Maar hoe labelen we de gegevens die ons kunnen helpen die basis te verbeteren. Voor chatbots, voor zelfrijdende voertuigen, en voor de mechanismen achter klantherstel, fraudepreventie, steunprogramma’s van de overheid, pandemieën, en boekhouding onder IFRS?

Regelgeving en pandemieën komen in dezelfde zin voor omdat ze vanuit het oogpunt van gegevens vergelijkbaar zijn. In beide gevallen gaat het om een plotselinge of onopgemerkte komst die ons verplicht nieuwe informatie uit bestaande gegevens te halen. Die nieuwe informatie is voor AI alleen haalbaar als de opleidingsgegevens met dat doel voor ogen zijn gelabeld.

Ik zal het uitleggen met een eenvoudig voorbeeld van zelfrijdende voertuigen. Tegenwoordig worden trainingsgegevens gelabeld voor voetgangers, fietsen, auto’s, vrachtwagens, verkeersborden, kinderwagens, enz. Wat als we morgen besluiten dat de AI zich ook moet aanpassen aan de hogere snelheid van elektrische fietsen? U zult een enorme operatie nodig hebben om nieuwe gegevens te verzamelen en die gegevens opnieuw te trainen, aangezien de huidige modellen waarschijnlijk niet goed zullen presteren voor deze nieuwe vraag.

Bedrijven die softwaresystemen gebruiken met reeds bestaande meta-gegevensmodellen of bedrijfswoordenlijsten hebben dezelfde grenzen. Zij werken door labels te selecteren en aan te brengen zonder een label aan de inhoud te ontlenen – anders moeten zij met de hand labelen, wat arbeids- en tijdsintensief is – en vaak te veel om dit onder de druk van grootschalige schandalen en crises te kunnen doen.

Automatische gegevenslabeling en SynerScope

De noodzaak om gegevens aan te passen voor plotselinge crises laat geen handmatige etikettering toe. In plaats daarvan is automatische etikettering een betere keuze. Maar, zoals we weten uit mislukkingen van organisaties en van de overheid, is AI alleen niet nauwkeurig genoeg om rekening te houden met individuele inhoud.

Voor SynerScope moet de inhoud zelf altijd bepalend zijn voor de beschrijvende etikettering. De etiketteringsmethode moet altijd meegroeien met de inhoud. Daarom gebruiken wij een combinatie van algoritmeautomatisering en menselijk toezicht, om het beste van beide werelden samen te brengen – voor een snelle en efficiënte gegevenslabeling.

Als u meer wilt weten over hoe onze etikettering werkt, neem dan gerust contact met ons op via info@synerscope.com.

Dynamische datalabeling gebruiken om bedrijfswaarde te creëren

Dynamische gegevenslabeling met Ixivault

Voordat u enige waarde aan gegevens kunt ontlenen, moet u relevante gegevens vinden en ophalen. Met zoeken kun je dat doel bereiken. Wil “zoeken” echter werken, dan zijn er twee dingen nodig: Een zoekterm moet door mensen worden gedefinieerd; gegevens moeten worden geïndexeerd zodat de computer ze kan vinden met kosten- en snelheidsefficiëntie en om de gebruiker bezig te houden. Maar de zoekefficiëntie wordt ondermijnd door de omvang van alle beschikbare gegevens en de aanwezigheid van dark data (zonder indexen of labels), zowel vanuit financieel oogpunt als vanuit het oogpunt van de reactietijd.

Technologieën als bedrijfszoeken zijn om die reden nooit van de grond gekomen. Zonder labels is het niet effectief om een systeem te vragen resultaten uit de gegevens te selecteren. Op het moment dat de gegevens worden gecreëerd, weet de maker precies wat een bestand bevat. Maar met het verstrijken van de tijd laat ons geheugen het afweten, en andere mensen kunnen worden belast met het vinden en opvragen van gegevens, lang nadat wij verder zijn gegaan. Het doorzoeken van gegevens in bedrijfsapplicaties betekent vaak dat elk geregistreerd onderwerp of object moeizaam moet worden opgezocht. Voor eindgebruikerstoepassingen zoals MS Office ontbreekt zelfs die mogelijkheid. Zonder goede labels zijn zoek- en vindmogelijkheden vrijwel onmogelijk. En terwijl de mensen die gegevens creëren precies weten wat erin staat, kunnen de mensen die daarna komen, en de programma’s die we maken om die gegevens te beheren, niet dezelfde mentale truc uithalen om betekenis te halen uit ongesorteerde gegevens.

Bij SynerScope bieden we een oplossing om gemakkelijk gegevens te herstellen die in de loop der tijd verloren zijn gegaan of vanaf het begin vaag gedefinieerd waren. Wij tillen dergelijke “onbekende” gegevens eerst in een geautomatiseerde, op AI gebaseerde, sorteermachine. Eenmaal gesorteerd schakelen wij een menselijke dataspecialist in, die dan kan werken met subgroepen van gegevens in plaats van individuele bestanden. Nogmaals, zonder toezicht, onze oplossing presenteert de gebruiker de onderscheidende woorden die elke subgroep ten opzichte van elkaar vertegenwoordigen. In wezen presenteert de AI de voornaamste labelopties voor bestanden en inhoud in elke subgroep, ongeacht de grootte in aantal bestanden, pagina’s of paragrafen. De menselijke beoordelaar hoeft alleen een labeloptie te selecteren en te controleren, in plaats van de zware taak van het genereren van labels op zich te nemen.

Aldus gelabeld zijn de gegevens klaar voor de gevestigde processen voor bedrijfsgegevens. Catalogiseren, toegangsbeheer, analyse, AI, machine learning en sanering zijn gemeenschappelijke einddoelen voor data nadat Synerscope Ixivault metadata en labels genereert.

SynerScope maakt ook een voortdurende, dynamische herlabeling van gegevens mogelijk als er nieuwe behoeften ontstaan. Dat is belangrijk in dit tijdperk van snelle digitale groei, met een constant spervuur van nieuwe vragen en digitale behoeften. De analyse- en informatie-extractiemogelijkheden van Ixivault kunnen gemakkelijk, snel en nauwkeurig evolueren en zich aanpassen aan toekomstige vereisten.

Hoe komen ongelabelde gegevens tot stand?

Er worden voortdurend gegevens gecreëerd en verzameld. Wanneer werknemers gegevens vastleggen of creëren, voegen zij toe aan bestanden en logboeken. Mensen zijn ook heel goed in het mentaal categoriseren van gegevens – we kunnen met gemak navigeren door de meest recente gegevens, ongesorteerd en al. Of het nu gaat om het navigeren door een stapel papieren of geneste mappen – onze associatieve hersenen kunnen het algemene idee onthouden van wat er in elke stapel gegevens zit – zolang die gegevens niet bewegen. Maar we zijn erg beperkt door de schaal die we aankunnen. Wij hebben mentale beelden van geleerden en professoren die werken in kamers waar de gegevens overal tot aan het plafond zijn opgestapeld, maar waar weinig werd schoongemaakt. Dit paradigma geldt niet voor digitale gegevens in ondernemingen. Samenwerking, analyse, AI-behoeften en regelgeving leggen altijd een te grote druk op weten waar gegevens zijn.

Catalogi en classificatieoplossingen kunnen helpen, maar het automatiseringsniveau voor het vulproces is te laag. Dat leidt tot hiaten en achterstanden in de etiketteringsgegevens. De AI voor volledig automatisch labelen is er nog niet. Het catalogiseren en classificeren van bedrijfsdocumentatie is nog moeilijker dan het classificeren van digitale beelden en videobeelden.

Digitale jumelage en het leveren van waarde met gegevens

Vóór breedband bestond er niet zoiets als een digitale tweeling voor mensen, door de mens gemaakte voorwerpen of natuurlijke objecten. Alleen noodzakelijke informatie werd opgeslagen in op toepassingen gebaseerde gegevenssilo’s. In 2007 veranderde dat door de komst van de iPhone en de revolutie op het gebied van mobiele en mobiele apparaten. Iedereen en alles was online, de hele tijd, en genereerde voortdurend gegevens. De digitale tweeling, een verzameling gegevens die een echte persoon of een natuurlijk of door de mens gemaakt voorwerp voorstelt, was geboren.

In de meeste organisaties blijven deze digitale tweelingenmeestal in het ongewisse. De meeste organisaties verzamelen enorme hoeveelheden gegevens over klanten, klantcases, accounts en projecten. Het blijft in het duister omdat het in silo’s wordt samengesteld, opgeslagen en gebruikt. Wanneer de mensen die de gegevens hebben gecreëerd met pensioen gaan of naar een ander bedrijf verhuizen, vervagen de betekenis en de inhoud ervan snel – omdat niemand anders weet wat er is of waarom. En zonder de juiste labels kunnen uw systemen er moeilijk mee omgaan.

GDPR, HIPPA, CCPA enz. dwingen organisaties te begrijpen welke gegevens ze hebben over echte mensen, en ze eisen hetzelfde voor alle historische gegevens die zijn opgeslagen uit de tijd voordat die voorschriften bestonden.

Regelgeving evolueert, technologieën evolueren, markten evolueren en uw bedrijf evolueert, wat allemaal leidt tot zeer dynamische veranderingen in wat u van uw gegevens moet weten. Als je wilt bijblijven
,
ervoor zorgen dat u die gegevens kunt gebruiken om de bedrijfswaarde te verhogen – terwijl u onnodige risico’s van bedrijfsvoorschriften, gegevensbescherming en beveiligingsvoorschriften vermijdt – moet u uw gegevens kunnen doorzoeken. Gebeurt dit niet, dan kunt u verstrikt raken in een chaotische saneringsprocedure, vergezeld van ongesorteerde gegevens die de onrust niet verminderen, maar de chaos juist vergroten.

Dynamische gegevenslabeling met Ixivault

Ixivault helpt u om gegevens op een flexibele, efficiënte manier af te stemmen op nieuwe realiteiten, met een dynamisch, zwak gesuperviseerd systeem voor gegevenslabeling. De applicatie wordt geïnstalleerd in uw eigen beveiligde Microsoft Azure client-tenant, waarbij gebruik wordt gemaakt van de gegevensopslag die u hebt opgezet en beheerd, zodat alle gegevens altijd veilig onder uw beheer blijven. Onze oplossing, met haar vermogen om gegevens te sorteren, helpt al uw medewerkers – van LOB tot IT – om gegevens te categoriseren, classificeren en labelen op inhoud – waardoor ze in wezen uit het duister worden gehaald.

Uw gegevens zijn dan toegankelijk voor al uw digitale processen. Ixivault toont situaties en objecten gegroepeerd op gelijkenis van documentatie en beeldopnames en stelt u in staat groepen te vergelijken op verschillen in de inhoud. Dit vereenvoudigt en versnelt het toekennen van labels aan de gegevens. Elke activiteit waarbij gevallen, objecten, situaties, gegevens of een toetsing aan vastgestelde normen moeten worden vergeleken, wordt eenvoudig gemaakt. Ixivault verbetert ook de kwaliteit van de dataselectie, wat helpt bij een reeks toepassingen, van Know Your Customer en Customer Due Diligence tot analyses en AI-gebaseerde voorspellingen op basis van historische gegevens.

Verzekeringsmaatschappijen kunnen die gegevens bijvoorbeeld gebruiken om vergelijkbare gevallen te vinden, ze te koppelen aan risico’s en premietarieven, en zo uitschieters op te sporen – zodat het bedrijf kan ingrijpen bij de prijsstelling, de acceptatie of de binding, of allemaal.

Het type dynamische etikettering van SynerScope creëert mogelijkheden om snel en flexibel alle gegevens te matchen.. Naarmate de perceptie en de culturele toepassingen van gegevens in de loop der tijd veranderen, kunt u ook gegevens afstemmen op de evoluerende behoeften inzake informatie-extractie, labels wijzigen naarmate de gegevenscontext verandert, en waarde blijven halen uit de gegevens waarover u beschikt.

Als u meer wilt weten over Ixivault of de dynamic matching mogelijkheden in uw organisatie, neem dan contact met ons op voor persoonlijke informatie.

Verhuizen naar de Azure-cloud: dark data uitpakken

Verhuizen naar de Azure cloud?

Tegenwoordig stappen steeds meer bedrijven over naar de cloud – om te automatiseren en te profiteren van AI en schaalbare opslag, en om de kosten ten opzichte van bestaande legacy-infrastructuur te verlagen. In 2021 zal namelijk naar schatting 19,2% van de grote organisaties de overstap naar de cloud maken. En Microsoft Azure leidt die verschuiving bijna – met een marktacceptatie van 60%.

Vaak richten organisaties zich tijdens een cloudtransitie op geselecteerde toepassingen. De bestaande gegevens zouden echter wel eens de grootste complexiteit kunnen vormen. Een meerderheid van de organisaties gebruikt minder dan 50% van de gegevens die zij bezitten. Tegelijkertijd is er geen toezicht op gegevens waarvan men eigenaar is. Deze ongebruikte, niet-geclassificeerde en niet-gelabelde gegevens worden ook wel “dark data” genoemd, omdat ze in de schaduw blijven totdat er voldoende tijd is uitgetrokken om ze te sorteren, labelen en classificeren.

Verhuizen naar de Azure Cloud is als verhuizen

Wij denken dat het zinvol is om de overstap naar de Azure-cloud te vergelijken met een verhuizing. Je beslist waar je gaat wonen, je kiest je nieuwe infrastructuur en je maakt alles klaar om in te trekken. Dan pak je je oude spullen in en verhuis je mee. Het probleem is dat je waarschijnlijk al genoeg dozen hebt liggen. Denk aan je zolder, je kelder en opslag. Dingen van eerdere verhuizingen. Je hebt misschien alle kennis verloren van wat er in zit. Hetzelfde geldt wanneer de applicaties en gegevens van uw organisatie moeten verhuizen. Maar deze keer heb je ook te maken met “dozen” met gegevens die niet gelabeld zijn door mensen die de organisatie verlaten, gegevens die langere tijd ongebruikt zijn gebleven en gegevens die zijn achtergebleven van reeds verouderde toepassingen. Het verplaatsen van deze en andere minder bekende gegevens kan in de toekomst tot grotere problemen leiden.

  • Gegevens stapelen zich sneller op dan ooit tevoren. Morgen heb je er meer van. Daarom is het nu het beste moment om de gegevens door te nemen en te categoriseren
  • Goed beheer van gegevens is onmogelijk zonder eerst de inhoud ervan te kennen. Oudere gegevens van vóór de GDPR-regelgeving zijn er nog steeds. Compliance- en risicofunctionarissen en CISO’s vrezen deze onbekende gegevens en vrezen dat ze buiten de compliance-voorschriften vallen.
  • Met dark data kan het moeilijk zijn om door controles op naleving van de regelgeving te komen. Als u een ‘doos’ met gegevens niet kunt openen om de controleurs te laten zien wat erin zit, kunt u niet bewijzen dat u aan de regels voldoet.
  • Je mag ook niet zomaar gegevens wissen. Industrieën en overheden moeten voldoen aan wet- en regelgeving over het archiveren en onderhouden van open data.
  • Als u weet welke gegevens u hebt, kunt u een strategie bepalen en gecontroleerde beslissingen nemen over koude/warme/warme opslag om zowel de kosten als de toegang te optimaliseren. Het verplaatsen van gegevens die nog donker zijn, kan leiden tot onomkeerbaar gegevensverlies of ten minste dure reparaties in de toekomst.
  • Voor het lokaliseren en raadplegen van gegevens is het soort informatie nodig dat het best wordt vastgelegd in classificaties en labels; voor de analyse van historische gegevens zijn deze metadata nodig.
  • De delen van gegevens die dark data vormen, maken organisaties kwetsbaar omdat het ontwerpen en nemen van beveiligingsmaatregelen extra moeilijk wordt.
  • Soms kunt of moet u informatie verwijderen. U kunt dit echter alleen doen als u de inhoud ervan van tevoren kent en de naleving van de regelgeving kunt bepalen en een vooruitziende blik hebt voor toekomstige waardevolle analyses.

Hoe kunt u de toegang tot deze gegevens optimaliseren? Toen een van onze klanten, de Drents Overijsselse Delta Waterschappen, zich boog over het archiveren en opslaan van haar projectdocumentatie uit het verleden in de cloud, vond zij de noodzakelijke handmatige labeling een ontmoedigende taak. De enorme tijdsinvestering die nodig is, is zeer vergelijkbaar voor andere organisaties die op de cloud overstappen. Handmatige controle van gegevens is voor de meeste organisaties gewoonweg te arbeidsintensief om binnen een haalbaar tijdsbestek uit te voeren.

Gegevens uitpakken met Ixivault van Synerscope

Met Synerscope krijgt u de gegevenshelderheid die u nodig hebt. Als zwak gecontroleerd AI-systeem zijn onze oplossingen gebouwd om te presteren waar standaard AI-benaderingen zouden falen. Synerscope’s Ixivault implementeert op uw Azure Tenant – zonder eigen backend. Dit betekent dat alle gegevens binnen uw huurder blijven, wat een groot pluspunt is voor alle zaken en zorgen met betrekking tot beveiliging, governance en compliance. Met onze wrijvingsloze implementatie kunt u vervolgens donkere gegevens openen, categoriseren en labelen met behulp van een combinatie van machine learning met handmatige beoordeling om het volledige proces met gemiddeld 70% te versnellen.

Ixivault analyseert uw volledige gegevenspool van gestructureerde en ongestructureerde gegevens, maakt categorieën op basis van overeenkomsten tussen gegevens, haalt trefwoorden en onderscheidende termen eruit en genereert afbeeldingen van die gegevensstapels – die uw domeinexpert vervolgens snel kan gaan labelen. Het belangrijkste is dat Ixivault ingebouwde leermogelijkheden heeft, wat betekent dat het beter wordt in het categoriseren en labelen van uw specifieke gegevens naarmate u het gebruikt.

Dit alles maakt Ixivault de perfecte tool om u te helpen verhuizen – door dozen met gegevens uit te pakken terwijl u ze naar de cloud verplaatst. U kunt dan kiezen voor passende opslag, beheer en toegangscontrole, ook als u de gegevens wel of niet hoeft te bewaren. Voor het eerst kunt u een bijna rand-tot-rand overzicht krijgen van al uw gegevens met inzoommogelijkheden tot op zeer gedetailleerd niveau, zodat u de beste keuze kunt maken wat u met deze nieuw ontdekte gegevens gaat doen. Nieuwe informatie over uw gegevens kan u geld opleveren en tegelijkertijd geld besparen.

Als u hulp nodig heeft bij het uitpakken van uw dark data tijdens uw verhuizing, neem dan contact met ons op voor meer informatie over hoe Synerscope kan helpen. U kunt de Ixivault-app ook rechtstreeks kopen op de Azure Marketplace van Microsoft.