NAP Process Industry Network

  1. Login
  2. Contact
  3. Google translate

Studium Generale: Big Data

Op 4 en 10 mei heeft NAP een Studium Generale georganiseerd in samenwerking met LINK Data Science. De SG gaat over Big Data en Data Science. Twee veel gehoorde termen maar wat betekenen deze eigenlijk?

Het doel van Studium Generale was tweeledig. Aan de ene kant duidelijk maken wat Big Data betekent, waarom het juist nu relevant is en wat de belangrijke concepten zijn achter de technologie. Daarnaast was het doel om de deelnemers het proces van data omzetten in kennis te laten ervaren aan de hand van een real-life case. Deze case werd aangedragen door TATA Steel.

De eerste sessie van de workshops was gefocust op het uitleggen van de grond-slagen van Big Data en Machine Learning. In deze sessie werd theorie gecom-bineerd met interactieve oefeningen waarbij de deelnemers bewust ging nadenken over uitdagingen als het gaat om het opslaan en analyseren van grote hoeveelheden data om daar inzichten uit te halen. Aan de hand van analogieën en voorbeelden waar de deelnemers zich aan kunnen relateren, werd de werking uitgelegd van belangrijke technologieën zoals Hadoop en algoritmen zoals Neural Networks. De eerste sessie werd afgesloten met een korte demo over hoe een Machine Learning algoritme voor het classificeren van typen bloemen werkt.

De tweede sessie was heel praktisch ingestoken en was bedoeld om de case van TATA Steel te doorgronden. Het doel van deze case is om een classificatie-algoritme te ontwikkelen die de defecten op metaaloppervlakken kan classificeren. Voor TATA is dit relevant voor het verbeteren van de kwaliteitscontrole. De sessie begint met een introductie in de syntax van R. Daarna hebben de deelnemers een aantal stappen doorlopen om van ruwe data naar inzichten te gaan. Bij elk van de stappen werd stil gestaan bij mogelijke uitdagingen en hoe je daarmee in de praktijk omgaat. Een voorbeeld is het format waarin data ingelezen wordt. Het is belangrijk om alle variabelen in een goed format te hebben om een model te kunnen trainen. Een ander voorbeeld is het splitsen van een dataset in een training en test set. In de praktijk loopt men tegen een aantal uitdagingen aan als het gaat over de verdeling van de data over deze twee sets. Het werken met de tools heeft een goed inzicht gegeven in de mogelijkheden die er op dit moment aanwezig zijn. Vaak zijn deze tools vrij op het internet beschikbaar.

Naast deze hands-on ervaring met het uitwerken van een case hebben de deelnemers van dichtbij meegemaakt wat een analist eigenlijk aan het doen is. De deelnemers kregen een aantal handvatten mee om scherpe vragen te kunnen stellen over de keuze van modellen, bewerking van data en de betrouwbaarheid van de voorspellingen.

Al met al zeer geslaagde sessies, niet alleen voor de specialisten, maar ook voor nieuwsgierige managers die meer inzicht in de achtergrond van Big Data wilden krijgen.