Tag Archief van: machine learning

Kunstmatige intelligentie is slechts zo goed als datalabeling

Gegevenslabeling met SynerScope

Recente gebeurtenissen in mijn thuisland inspireerden mij tot het schrijven van deze blog. Dagelijks horen wij verhalen over bedrijven en overheidsorganisaties die moeite hebben om individuele dossiers of zaken voldoende te begrijpen. Kennislacunes en gebrek aan toegang tot goede informatie schaden het welzijn van individuen en organisaties. Soms wordt de welvaart van de samenleving zelf aangetast. Bijvoorbeeld bij grootschalige financiële criminaliteit en saneringszaken in het bank- en verzekeringswezen, bij de overheid en bij pandemieën.

We hebben gewoon weinig inzicht in de gegevens, wat betekent dat AI en analytics zijn ingesteld om te falen. Bovendien is het moeilijk te zien welke gegevens we kunnen of mogen verzamelen om mens-computer processen uit te voeren om relevante informatie te extraheren om die problemen op te lossen.

Onbeperkt dataverkeer zonder applicatie

De COVID19-pandemie laat niet alleen zien hoe moeilijk het is om de juiste gegevens te genereren, maar ook hoe moeilijk het is om bestaande gegevens te gebruiken. Daarom vertoont gegevensgestuurde besluitvorming vaak hiaten in het begrip van gegevens.

Banken besteden miljarden aan technologie en mensen in KYC-, AML- en klantherstelprocessen. Toch voldoen ze nog steeds niet volledig aan de gewenste regelgevingsdoelstellingen.

Ook regeringen hebben moeite met gegevens. Recente schandalen bij de Nederlandse belastingdienst, zoals de Toeslagenaffaire, laten bijvoorbeeld zien hoe moeilijk het is om tienduizenden gevallen te behandelen die moeten worden gesaneerd. En het Nederlandse ministerie van Economische Zaken worstelt met de vaststelling van individuele schadevergoedingen in Groningen, waar aardbevingen door gaswinning huizen hebben beschadigd.

Tegenwoordig is de wereld in ongelooflijke mate gedigitaliseerd. Dus overschat de samenleving, van burgers tot pers en politici en het rechtssysteem, het vermogen van organisaties om de juiste informatie te halen uit de gegevens die zo overvloedig beschikbaar zijn.

Die organisaties, hun datawetenschappers, IT-teams, cloudleveranciers en geleerden hebben immers een wereld van welzijn en welwillendheid beloofd op basis van data en AI. Maar dat ze die beloften niet nakomen is zeker geen teken dat de complottheorieën waar zijn. Het laat eerder de grenzen zien van AI in een wereld waarin organisaties minder dan de helft begrijpen van de gegevens die ze hebben wanneer deze niet in een staat verkeren die gereed is voor machinale verwerking. Immers, als je niet weet wat je hebt, kun je ook niet zeggen welke gegevens je mist.

De helft van alle gegevens zijn donkere gegevens

Gartner bedacht de term “Dark Data” om te verwijzen naar die helft van alle gegevens waar we niets van weten. En, als Donkere Materie zoveel invloed heeft in ons universum, zouden Donkere Gegevens dan niet een soortgelijke invloed kunnen hebben op ons vermogen om informatie en kennis uit de gegevens te halen?

We zijn te veel in de droom van AI gaan geloven, want wat als donkere gegevens zich gedragen als donkere materie? Door overschatting van wat mogelijk is met gegevensgestuurde besluitvorming, kunnen mensen geloven dat de machthebbers deze gegevens manipuleren.

Het drijvende concept van SynerScope is gebaseerd op onze technologie om Dark Data binnen organisaties te beoordelen. Door onze donkere gegevens beter te begrijpen, kunnen we onze wereld beter begrijpen en betere resultaten halen uit menselijke en computerintelligentie (AI) samen.

Algoritmen vertrouwen op gelabelde datasets

De huidige AI, DL (Deep Learning) en ML (Machine Learning) hebben gegevens nodig om te leren – en veel gegevens. Gegevensvertekening is een echt probleem voor dat proces. Hoe beter de opleidingsgegevens zijn, hoe beter het model presteert. De kwaliteit en kwantiteit van de opleidingsgegevens hebben dus evenveel invloed op het succes van een AI-project als de algoritmen zelf.

Helaas zijn ongestructureerde gegevens en zelfs sommige goed gestructureerde gegevens niet zodanig gelabeld dat zij geschikt zijn als trainingsset voor modellen. Voor sentimentanalyse zijn bijvoorbeeld slang- en sarcasmalabels nodig. Chatbots vereisen entiteitsextractie en zorgvuldige syntactische analyse, niet alleen ruwe taal. Een AI voor autonoom rijden heeft straatbeelden nodig met daarop voetgangers, fietsers, straatnaamborden, enz.

Goede modellen vereisen solide gegevens als sterke basis. Maar hoe labelen we de gegevens die ons kunnen helpen die basis te verbeteren. Voor chatbots, voor zelfrijdende voertuigen, en voor de mechanismen achter klantherstel, fraudepreventie, steunprogramma’s van de overheid, pandemieën, en boekhouding onder IFRS?

Regelgeving en pandemieën komen in dezelfde zin voor omdat ze vanuit het oogpunt van gegevens vergelijkbaar zijn. In beide gevallen gaat het om een plotselinge of onopgemerkte komst die ons verplicht nieuwe informatie uit bestaande gegevens te halen. Die nieuwe informatie is voor AI alleen haalbaar als de opleidingsgegevens met dat doel voor ogen zijn gelabeld.

Ik zal het uitleggen met een eenvoudig voorbeeld van zelfrijdende voertuigen. Tegenwoordig worden trainingsgegevens gelabeld voor voetgangers, fietsen, auto’s, vrachtwagens, verkeersborden, kinderwagens, enz. Wat als we morgen besluiten dat de AI zich ook moet aanpassen aan de hogere snelheid van elektrische fietsen? U zult een enorme operatie nodig hebben om nieuwe gegevens te verzamelen en die gegevens opnieuw te trainen, aangezien de huidige modellen waarschijnlijk niet goed zullen presteren voor deze nieuwe vraag.

Bedrijven die softwaresystemen gebruiken met reeds bestaande meta-gegevensmodellen of bedrijfswoordenlijsten hebben dezelfde grenzen. Zij werken door labels te selecteren en aan te brengen zonder een label aan de inhoud te ontlenen – anders moeten zij met de hand labelen, wat arbeids- en tijdsintensief is – en vaak te veel om dit onder de druk van grootschalige schandalen en crises te kunnen doen.

Automatische gegevenslabeling en SynerScope

De noodzaak om gegevens aan te passen voor plotselinge crises laat geen handmatige etikettering toe. In plaats daarvan is automatische etikettering een betere keuze. Maar, zoals we weten uit mislukkingen van organisaties en van de overheid, is AI alleen niet nauwkeurig genoeg om rekening te houden met individuele inhoud.

Voor SynerScope moet de inhoud zelf altijd bepalend zijn voor de beschrijvende etikettering. De etiketteringsmethode moet altijd meegroeien met de inhoud. Daarom gebruiken wij een combinatie van algoritmeautomatisering en menselijk toezicht, om het beste van beide werelden samen te brengen – voor een snelle en efficiënte gegevenslabeling.

Als u meer wilt weten over hoe onze etikettering werkt, neem dan gerust contact met ons op via info@synerscope.com.

Ixivault helpt bij het labelen en categoriseren van Dark Data in de Azure Cloud

Ixivault, een beheerde app op Microsoft Azure

De donkere gegevens van uw organisatie vormen een uitdaging bij de overstap naar de cloud. Toch is het laten staan op een huidige locatie ook niet de oplossing.

Donkere gegevens omvatten digitale gegevens die worden opgeslagen maar nooit worden gemobiliseerd voor analyse of om informatie te leveren. Als u over dark data beschikt, mist uw organisatie al mogelijkheden om er waarde uit te halen. Maar als u donkere gegevens niet meeneemt naar de cloud, drijven ze nog verder af van uw andere gegevensassets. Ondertussen biedt de flexibele reken- en geheugeninfrastructuur van de cloud een zeer kosteneffectieve oplossing om die gegevens te mobiliseren. Het belangrijkste is dat dit gebeurt op elke schaal die uw organisatie nodig heeft.

Er zijn echter nog uitdagingen. Bijvoorbeeld het overwinnen van de risico’s van governance en compliance, hogere opslagkosten en keuzes op het gebied van opslagtiering. Kiest u ervoor gegevens in de buurt op te slaan om ze met andere gegevens te synchroniseren – maar tegen hogere opslagkosten?

Donkere gegevens migreren naar de Azure-cloud

Voor de meeste organisaties is het niet opstellen en uitvoeren van een dark data plan als onderdeel van de cloud transitie in het beste geval ongewenst en in het slechtste geval in strijd met data compliance. Synerscope levert de tools om die gegevens te analyseren en te “ontsluiten” tijdens de overgang, waarbij efficiënt gebruik wordt gemaakt van cloud computing, terwijl u de gegevens volledig onder controle houdt. Dit betekent dat er geen extra risico’s ontstaan voor compliance, beveiliging, enz.

Synerscope helpt u ook om dark data te mobiliseren, met behulp van een combinatie van machine learning, AI en menselijke expertise. Het ontsluiten van dark data is voor de meeste organisaties essentieel. Dat blijft zo, of u nu overschakelt van legacy-systemen naar Azure, uw governance-voetafdruk verkleint of onder druk staat om gegevens te ontsluiten voor compliance of een audit van de regelgeving. Ixivault van Synerscope komt in beeld op elk punt waar u gedetailleerde en brede overzichten van complexe gegevens nodig hebt. Dit wordt bereikt door het sorteren, categoriseren en onthullen van patronen en door domeindeskundigen de middelen te geven om snel en met grote nauwkeurigheid categorieën te labelen.

Uw gegevens, uw Azure huurder


Ixivault
is een beheerde app op Microsoft Azure. Wanneer u de tool inzet, installeert deze bovenop uw Azure Blob of ADLS waar de gegevens onder uw controle blijven. Wij zetten Ixivault aan op Azure computing, wat betekent dat de rekenkracht dynamisch wordt opgeschaald om te voldoen aan de omvang en complexiteit van de gegevens die u erheen stuurt om te scannen en te berekenen. Op geen enkel moment verlaten de gegevens uw Azure-tenant of een toegewezen beveiligde opslag die wordt gebruikt voor het scheiden van gevoelige gegevens. Het ontwerp van SynerScope voldoet aan de strengste eisen voor compliance en governance. Onze Ixivault voelt en werkt als een SaaS, maar doet dat in uw huurder, zonder een eigen back-end voor de opslag van uw gegevens. Daarom kunt u met Synerscope uw donkere gegevens categoriseren, sorteren en labelen zonder extra ingewikkelde regelgeving. Uw gegevens blijven in uw cloud, het proces is volledig transparant en u controleert en bewaakt uw huurder voor alle zaken die verband houden met gegevenssoevereiniteit.

Dat geldt of u nu voor het eerst gegevens naar Azure importeert om ze te inspecteren voordat u beslist waar u ze opslaat of dat u al gegevens in een Blob of ADLS hebt en die moet inspecteren of gegevens op legacy-infrastructuur wilt openen.

Sorteren en categoriseren van donkere gegevens

Ixivault maakt gebruik van AI en machine learning voor sortering en tekstextractie. Hierbij bieden visuele displays domeinexperts een rijke en onderscheidende context waaruit de meest geschikte labels van beschrijvende metadata kunnen worden gekozen. Onze technologie is een zwak gecontroleerd systeem, waarbij eerst unsupervised computing de gegevens in bulk behandelt, gevolgd door een menselijke operator om labels en in bulk gesorteerde gegevenscategorieën te valideren. Het systeem werkt rechtstreeks op ruwe gegevensinvoer, zonder training. Het gebruik van onbewerkte datasets met menselijke validatie om labels toe te voegen betekent dat we het systeem mettertijd slimmer kunnen maken. Toekomstige onbewerkte datasets worden automatisch gecontroleerd op overeenkomsten met eerder verwerkte datasets. Er kan dus vanaf de eerste dag een hoge waarde worden bereikt, maar het systeem leert in de loop der tijd. .

Ixivault abstraheert gegevens tot hypervectoren – waarbij de overeenkomst tussen gegevens algoritmisch wordt vergeleken. Met behulp van algoritmen kan de AI nauwkeurig gegevens sorteren in “stapels” van soortgelijke bestanden. Formaat, lay-out en inhoud van documenten worden allemaal door de algoritmen gebruikt om gewone bedrijfsdocumenten zoals contracten, brieven, offertes, facturen, e-mails, brochures, claims en verschillende tabellen te scheiden. En onze algoritmen scheiden subgroepen volgens de feitelijke inhoud binnen elk van deze. Onze taalextractie presenteert onderscheidende woordgroepen uit elk “Stack”, zodat mensen de meest geschikte labels kunnen selecteren. Dezelfde geëxtraheerde woorden kunnen ook worden gekoppeld aan zakelijke woordenlijsten en gegevenscatalogi waarover uw organisatie reeds beschikt. Met hypervectoren kunnen onze algoritmen overeenkomsten tussen documenten “holistisch” detecteren, op een schaal die het menselijk vermogen te boven gaat. De resulterende samenvoeging van rijke ontologieën en semantische kennis zijn herbruikbaar in de hele organisatie en de vele toepassingen die er draaien.

Machinaal leren met menselijke context

Ixivault creëert outputs waarmee uw data-experts op maximale snelheid en schaal kunnen instappen. De toepassing toont een dashboard met de stapel gegevens, visuele beeldvorming van wat zich in deze stapel bevindt, en trefwoorden of tags die uit die gegevens en metadata worden gehaald. Waar beschrijvende metadata ontbreken of ontbreken, stelt ons systeem nieuwe kandidaten voor labels voor. Het systeem ondersteunt gebruikers bij het uitvoeren van snelle en krachtige data discovery-cycli, waarbij zoeken, sorteren, programmeren in natuurlijke taal en labelen aan elkaar worden gekoppeld. De output is kennis over de dark data van uw organisatie die kan worden gebruikt en hergebruikt door andere gebruikers en softwaresystemen.

Met deze aanpak kunnen gegevensdeskundigen naar bestanden en trefwoorden kijken en zeer snel tags toevoegen. Nog belangrijker is dat het ruimte schept voor menselijke expertise, om te herkennen wanneer gegevens buiten de norm vallen – bv. bestanden houden verband met een bijzondere omstandigheid, wat machines eenvoudigweg niet op betrouwbare wijze kunnen doen. Het resultaat is een krachtig, snel en flexibel systeem, bruikbaar met uiteenlopende gegevens.

Zodra u de door de machine voorgestelde etiketten hebt geselecteerd, hoeft u slechts een klein aantal van de eigenlijke bestanden afzonderlijk te inspecteren om de etikettering voor een hele groep gesorteerde bestanden te bevestigen.

Donkere gegevens ontsluiten bij de overgang naar de cloud

De overgang naar Azure dwingt de meeste organisaties om iets te doen met, of zeker na te denken over, hun dark data. Je kunt niet onnoemelijk veel gegevens naar de cloud verplaatsen zonder te weten wat erin zit. U zou niet genoeg extra waarde kunnen halen uit zo’n blinde zet. Om gegevens naar de juiste opslagoplossingen te leiden voor eenvoudige governance, compliance en beheer is kennis van de inhoud nodig. Bijvoorbeeld, zodat u voorrang kunt geven aan gegevens voor verdere verwerking en berekening, of kunt besparen op opslag voor inhoud met minder toegevoegde waarde. Data intelligentie kan meestal worden betaald door het verminderen van “dark storage”. Ondertussen kan uw organisatie haar bestuurlijke voetafdruk verbeteren en de naleving van de regelgeving waarborgen.

Synerscope kan de potentiële waarde van dark data leveren door de kennis te vergroten, te helpen bij retentie, toegangsbeheer, ontdekking, opschoning van gegevens, maatregelen ter bescherming van de privacy van gegevens en naleving. Het belangrijkste is dat dark data mining organisaties de informatie geeft die nodig is om met die gegevens zowel zakelijke als IT- en nalevingsbeslissingen te nemen – omdat gegevens de drie raakvlakken hebben.

Als u meer wilt weten over de software van Synerscope en onze aanpak, neem dan contact met ons op om een demo te plannen en de software in actie te zien.

Duiken in donkere gegevens op Azure – Gegevensbeheer in de cloud

Voor de meeste organisaties is dark data een vaag concept, de wetenschap dat je ergens enorme hoeveelheden opgeslagen gegevens hebt – en je hebt geen echt idee wat het is. Gartner bedacht de term om te verwijzen naar gegevens die organisaties verzamelen maar niet gebruiken of te gelde maken, en uiteindelijk uit het oog verliezen.

Die gegevens, die zijn opgeslagen in netwerkbestandsshares, samenwerkingstools (bv. SharePoint), online opslagdiensten zoals Drive en Dropbox, oude pc’s en back-ups, zijn duister omdat de meeste mensen in de organisatie geen idee hebben wat erin staat. In feite zijn die gegevens vaak opgeslagen in oude systemen of op schijven geplaatst door mensen die de organisatie inmiddels hebben verlaten. Maar nu organisaties overgaan op de cloud en moeten kiezen of ze gegevens laten waar ze zijn of ze verplaatsen naar een Azure Blob, wordt het een groter probleem – niet alleen voor het potentieel aan bedrijfswaarde, maar ook voor naleving van de regelgeving.

Donkere gegevens kunnen privégegevens omvatten

Donkere gegevens bieden geen beloften op het gebied van bedrijfswaarde. Toch kunnen organisaties het niet negeren. Vaak bevatten dark data alles van persoonlijk identificeerbare informatie tot HR-gegevens, juridische contracten, veiligheids- en toegangsinformatie en andere vertrouwelijke of bedrijfseigen informatie. Dit brengt reële risico’s met zich mee op het gebied van informatiebeheer, vooral in sectoren zoals de financiële en de openbare sector. En voor mondiale bedrijven wordt het steeds belangrijker dat gegevensanalyse en -beheer tegelijkertijd worden aangepakt om te voldoen aan de wetgeving inzake gegevensprivacy in de EU en de VS.

Uw bedrijfsgegevens kennen en kunnen opzoeken zou ideaal zijn. Het ontbreken van labels, categorieën en metagegevens in het algemeen maakt het echter moeilijk om te kiezen wat naar AI moet worden gestuurd voor analyse en ontdekking, wie toegang krijgt tot welke gegevens, en welke gegevens moeten worden bewaard (en waar). De meeste bedrijven hebben juist donkere gegevens omdat het sorteren en labelen te veel handwerk kost. Maar donkere gegevens houden onbekende mogelijkheden en risico’s in – zonder inzicht in de inhoud ervan kan geen enkele organisatie optimale beslissingen nemen over wat zij het beste kan doen.

Een aanzienlijke bestuurlijke voetafdruk

Zowel gestructureerde als ongestructureerde gegevens kunnen deel uitmaken van dark data. Er bevinden zich meer ongestructureerde dan gestructureerde gegevens in het donker.

Waarom? Ongestructureerde gegevens bemoeilijken geautomatiseerde verwerking; veel van deze gegevens vereisen aanzienlijke handmatige verwerking. Azure cloud compute en storage gebruiken elasticiteit en schaal om opties te bieden om resources efficiënt en kostenefficiënt te optimaliseren en alle gegevens te verwerken. Deze optie is uiteraard niet gemakkelijk beschikbaar in on-premise datacenters. Met SynerScope bovenop de Azure object store (Blob of ADLS) van de klant, kunnen ondernemingen snel en economisch zien welke content ze hebben. Nog belangrijker is dat zij deze informatie kunnen gebruiken om actie te ondernemen.

Zo kunnen de onderliggende contracten en correspondenties voor 10 jaar oude facturen niet worden behandeld zonder een goede governance. In de Azure-cloud kun je die gegevens genereren. Maar als er meerdere back-ends van verschillende SaaS-leveranciers zijn, wordt het verplaatsen van dark data naar de cloud bemoeilijkt vanuit een governance- en risicoperspectief. Daarom gebruikt de SaaS-achtige applicatie van SynerScope de opslag op de Azure-tenant van de klant. Daarom worden alle gegevensbescherming en -beveiliging geregeld in het ene contract tussen de klant en Microsoft Azure. Dankzij deze eenvoud kan de onderneming met vertrouwen gegevens naar de cloud verplaatsen, in de wetenschap dat de verantwoordelijkheden en aansprakelijkheden duidelijk zijn vastgelegd.

Dark Data categoriseren in de Azure Cloud

Bij Synerscope leveren we de tools om donkere gegevens te ontsluiten met behulp van machine learning voor het sorteren op inhoud, terwijl uw domeinexperts context toevoegen. Onze AI sorteert gegevens visueel, “stapelt” inhoud op basis van visuele gelijkenis – en markeert trefwoorden en descriptoren uit de stapel. Uw domeinexpert kan dat gebruiken om context aan de stapel toe te voegen – snel vaststellen of iets een factuur is, een hypotheekafschrift, de bankgegevens van een enkele klant, enz.

De software wordt geïnstalleerd in uw Azure-tenant, waarbij de gegevens in een systeemstructuur blijven, die alleen door uw Azure-contract wordt geregeld. SynerScope werkt op dezelfde manier als een Azure-module; wij brengen gegevens naar het cachegeheugen, deze worden berekend, en nieuw gegenereerde metadata vullen de oorspronkelijke gegevens aan. Deze data artefacten worden verplaatst naar de opslag, die u als klant inricht en beheert. Wij bieden u de ondersteuning om:

  • Vind relevante gestructureerde en ongestructureerde gegevens, open ze voor controle, data governance en onderhoudbaarheid voor GDPR-compliance
  • Gegevens vinden en structureren voor governance om te voldoen aan compliance-eisen in de financiële sector, de publieke sector, enz.
  • Verbetering van de triage voor dossiers die moeten worden gecontroleerd in KYC-, CDD-, PDD- en AML-onderzoeken.

Het belangrijkste is dat dit zowel geldt voor opgeslagen dark data als voor de enorme hoeveelheden gegevens die worden gegenereerd door CMS, selfservice, enquêtes en specifieke zaken als KYC-programma’s en beveiliging. Synerscope levert tooling om de overstap naar de cloud mogelijk te maken met dark data-analyse – zodat de organisatie een goede governance implementeert op alle gegevens terwijl deze naar de cloud verhuizen – en tegelijkertijd structuur en inzicht creëert in nieuwe gegevens.

Grof inzicht in Big Data

Synerscope geeft massaal inzicht in niet alleen donkere gegevens, maar in alle gegevens. Door gegevens visueel in kaart te brengen en te vertrouwen op gegevensexperts om verbanden te leggen, versnellen wij de analyse van vrijwel alle soorten gegevens.

Een specifiek voorbeeld: KYC is ongelooflijk belangrijk voor banken en andere financiële organisaties. Automatische waarschuwingssystemen kunnen tot meer dan 5% fout-positief zijn – elke waarschuwing moet handmatig worden beoordeeld. Als elke handmatige bestandscontrole meer dan 4 uur in beslag neemt, is een fout-positief percentage van 5% een enorme belasting voor het bedrijf. Maar Synerscope’s machine learning met behulp van AI om gegevens te categoriseren en sorteren, versnelt deze handmatige beoordeling met wel 20x.

Naarmate de gegevens zich in de cloud blijven opstapelen, zal de rol van Synerscope bij het nemen van dagelijkse beslissingen over compliance en governance toenemen. Dat geldt voor het opvragen van gegevens, het beslissen waar ze moeten worden opgeslagen, en of die gegevens überhaupt moeten worden bewaard.

Als u wilt zien hoe het werkt, neem dan contact met ons op voor een demo of pilot.