Machine Learning en zijn uitdagingen voor organisaties

14-05-2021

Met dank aan Lee, In & Shin, Yong Jae, 2020. "Machine learning for enterprises: Applications, algorithm selection, and challenges," in Business Horizons, Elsevier, vol. 63(2).

Geschreven door Sjoerd Deneer

Data is dé bron van veel recente veranderingen in het wereldwijde bedrijfsleven. Daarom is het voor ieder bedrijf van belang om zijn data op orde te hebben. Machine learning is één van de meest impactvolle innovaties voor organisaties in de komende jaren die mogelijk gemaakt worden door data. Machine learning zorgt er bijvoorbeeld voor dat bestaande taken kunnen worden geautomatiseerd, waardoor organisaties hun middelen in kunnen zetten in hoogwaardige activiteiten. Het effectiever inzetten van hun middelen creëert significante kostenverminderingen, een bron van nieuwe inkomsten in bestaande en nieuwe markten en een groter klantbehoud en -werving. Er komen echter ook enkele uitdagingen kijken bij de implementatie en het gebruik van machine learning. Datakwaliteit, de afweging tussen nauwkeurigheid en interpreteerbaarheid en het voldoen aan de privacywetgeving zijn dé drie uitdagingen die voor ieder bedrijf van groot belang zijn.

Machine learning en artificial intelligence

Machine learning is een onderdeel van artificial intelligence dat patronen in data automatisch kan ontdekken, waarna het deze patronen gebruikt voor voorspellingen, classificaties of clusteringen. Artificial intelligence bevat naast voorgaande mogelijkheden ook technologieën als spraak- en beeldherkenning en natuurlijke taalverwerking. Omdat machine learning veelal wordt gebruikt in algoritmes die data kunnen verwerken op manieren die buiten het menselijk vermogen vallen, zal dit onderdeel van artificial intelligence zorgen voor nieuwe bedrijfsprocessen en zal het grotere efficiëntie in bestaande taken mogelijk maken.

Categorieën van machine learning

Supervised machine learning

Wat is het?

Supervised machine learning bestaat uit 2 delen. Ten eerste wordt het algoritme geleerd classificaties en voorspellingen te doen. Hiervoor wordt data uit het verleden gebruikt waar input én output van bekend is. Ten tweede wordt het algoritme, zodra het de gewenste precisie bereikt is, ingezet voor classificaties en voorspellingen. In deze fase krijgt het algoritme alleen nog de input. Het gebruikt dan de kennis die het heeft om de classificatie of voorspelling te doen. Het algoritme wordt constant verder getraind door nieuwe data toe te voegen, waardoor het steeds beter wordt.


Hoe kan het gebruikt worden?

Een bank kan supervised machine learning bijvoorbeeld gebruiken om een algoritme te leren zeer precieze voorspellingen te maken. Een bank voedt data aan het algoritme over welke klanten wel en welke klanten niet hun lening hebben terugbetaald, in combinatie met datapunten over de klanten. Deze datapunten zijn bijvoorbeeld de financiële situatie, de leeftijd en gegevens over het verleden van de klant. Het algoritme kan deze data dan gebruiken om nieuwe klanten, waar alleen de input van bekend is, te classificeren of voorspellingen te doen over de kans van terugbetaling. Deze classificatie of voorspelling wordt dankzij de capabilities van het algoritme met hogere precisie en met inachtneming van grotere hoeveelheden data dan binnen het vermogen van een mens ligt gedaan.


Unsupervised machine learning

Wat is het?

Unsupervised machine learning is een type algoritme dat alleen input data krijgt, en op basis daarvan patronen gaat ontdekken.

Hoe kan het gebruikt worden?

Unsupervised machine learning kan bijvoorbeeld gebruikt worden om klanten te clusteren om op basis daarvan de juiste marketingstrategie toe te passen voor de vastgestelde groepen en om patronen in grote hoeveelheden data te ontdekken.


Semi supervised machine learning

Wat is het?

Semi supervised machine learning is een combinatie van bovenstaande types.

Hoe kan het gebruikt worden?

Een voorbeeld hiervan is het gebruik maken van gecodificeerde data voor classificaties met supervised machine learning, om daarna niet gecodificeerde data ook te classificeren met unsupervised machine learning. Zo kan een medewerker bijvoorbeeld een aantal documenten classificeren, waarna het algoritme nieuwe documenten kan classificeren gebaseerd op de kennis die het heeft vergaard tijdens het observeren van de eerdere classificaties.


Reinforcement learning

Wat is het?

Reinforcement learning is een algoritme dat verschillende acties uitprobeert en verbetert zichzelf op basis van feedback van de gebruiker.

Hoe kan het gebruikt worden?

Dit algoritme kan bijvoorbeeld samenvattingen genereren, waarna het zichzelf kan verbeteren in samenvatten op het moment dat aan een samenvatting door een persoon een score is gegeven. Een tweede voorbeeld is het gebruik van reinforcement learning in het handelen op de effectenbeurs. Zo kan een algoritme voorspellen wat er met de prijs van een bepaald aandeel gaat gebeuren, en op basis van feedback achteraf zichzelf constant verbeteren.

De uitdagingen

Hoewel machine learning ongekende mogelijkheden met zich meebrengt, zorgt het ook voor verschillende uitdagingen voor organisaties in implementatie en gebruik. Ten eerste is er de afweging tussen nauwkeurigheid en interpreteerbaarheid. Doordat een algoritme grote hoeveelheden data in acht kan nemen en veel verbanden kan ontdekken, is het in staat de meest nauwkeurige uitkomsten te berekenen en zichzelf verder te verbeteren. Het nadeel hieraan is dat de methodes en berekeningen zo ingewikkeld kunnen worden dat ze niet meer interpreteerbaar zijn. Dit kan voor problemen zorgen in de bruikbaarheid van het algoritme, omdat in veel situaties de interpreteerbaarheid juist belangrijk is. Daarom is het voor managers van belang om het meest nauwkeurige algoritme te kiezen, maar daarbij ook rekening te houden met de gewenste interpreteerbaarheid.

Een tweede uitdaging ontstaat bij het selecteren van data die gebruikt wordt. De uitkomst van de voorspelling, de classificering en de clustering is namelijk zo goed als de data die aan het algoritme gevoed wordt. De datakwaliteit gaat omlaag wanneer data minder gestructureerd en van verschillende bronnen afkomstig is. Daarom is het van belang om een datakwaliteit controle mechanisme in te bouwen dat nieuwe data evalueert. Idealiter zorgt dit mechanisme voor nauwkeurige, complete, uniforme en veilige data. Daarnaast kan het extraheren, transformeren en laden van data op de juiste manier ervoor zorgen dat de datakwaliteit hoog is.

Ruud Hermans, Change manager bij BluPoint, vertelt vanuit zijn ervaring:

"Het belangrijkste is dat de business zelf een leidende rol neemt en het niet alleen ziet als een IT feestje. De verantwoordelijkheid voor data moet helder en eenduidig belegd zijn in de organisatie en op het juiste niveau.

De data(stromen) dienen in kaart gebracht te worden en daarna kan de kwaliteit van de data in de diverse databronnen gemeten worden. Data issues kunnen eenmalig opgelost worden maar belangrijker is om de kraan dicht te draaien. Dit houdt in dat in de processen controles worden ingebouwd om data issues te herkennen en direct te herstellen. Zo wordt datakwaliteit meten en verbeteren een continu proces. Hiervoor zijn verschillende methodes en tools beschikbaar."

Een derde uitdaging is de complexiteit om de privacy van personen waarvan data wordt gebruikt te waarborgen. Ten eerste is het voor organisaties verplicht om aan de privacywetgeving te voldoen. Ten tweede leren algoritmes van data tijdens ontwikkeling. Daarom zullen zij bevooroordeeld werken als er vooroordelen verpakt zitten in de gebruikte data. Het herkennen van deze vooroordelen in de data is van cruciaal belang omdat de algoritmes, wanneer ze eenmaal ontwikkeld zijn, zelfstandig functioneren en zo complex zijn dat vooroordelen en gebruik van privacygevoelige informatie ondetecteerbaar zijn.

Conclusie

Datagebruik heeft de wereld de afgelopen decennia veranderd en zal ook aan de basis staan van veel toekomstige ontwikkelingen. Machine learning zal daarbij een essentieel onderdeel van bedrijfsprocessen worden in vele industrieën. Het zal zorgen voor veranderingen in hoe we werken, communiceren en samenwerken met onze collega's en klanten. Voor organisaties is het van belang om tijdig de gewenste eindsituatie te bepalen en te identificeren of machine learning de juiste oplossing biedt. Indien machine learning de juiste tools biedt, moeten organisaties de uitdagingen erkennen en de technologie op de juiste manier implementeren om een competitief voordeel te behalen.


Ruud Hermans, Change Manager bij BluPoint, vertelt vanuit zijn ervaring:

"BluPoint ondersteunt en begeleidt de business transformatie. Dat wil zeggen, de verandering richting een data gedreven organisatie. Wij begeleiden dit traject van begin tot eind. Wij zijn niet alleen adviseur maar voeren ook de regie over de realisatie en implementatie. Hieronder valt o.a.:

  • Het in kaart brengen van doelen / stip op de horizon

  • Het beleggen van verantwoordelijkheden voor data in de business

  • Het in kaart brengen van de data (zowel datastromen als data bronnen)

  • Het vaststellen van de datakwaliteit

  • Het implementeren van wijzigingen aan de business processen en IT systemen om datakwaliteit te verbeteren

  • Het implementeren van processen en tools om machine learning toe te passen."


Sjoerd Deneer, consultant bij Student Consultant, vertelt:

"Student Consultant ondersteunt organisaties omtrent het realiseren van het potentieel van data. Onze consultants bezitten veel kennis op het gebied van van Python, R, Excel en SQL door het volgen van studies zoals Data Science, Econometrie, Information Management of Applied Mathematics. Hierdoor kunnen wij operationele werkzaamheden ondersteunen door het beschikbaar stellen van onze consultants. Ook kunnen wij zelf de regie over data schoning projecten nemen. Dit doen wij met coaching van de ervaren consultants van BluPoint. Binnen deze projecten creëren wij modellen om data te verzamelen en op te schonen."


Wilt u meer weten?

Neem dan contact op met Sjoerd Deneer! Hij vertelt u graag meer over machine learning en zijn uitdagingen!