NAP Process Industry Network

  1. Login
  2. Contact
  3. Google translate

NAP Studium Generale over Big Data, Science en Machine Learning

Frans van Tilborg: "Ik ben altijd wel geïnteresseerd geweest in getallen. Vroeger had ik daar al een interesse in en het is uiteindelijk ook mijn baan geworden. Dagelijks ben ik met product kosten calculaties (en afgeleide overzichten) bezig. Ik probeer de getallen voor onze klanten klein te houden en onze winst groot! Al snel krijg ik zo een flink aantal getallen onder ogen, welke je als “big data” zou kunnen benoemen. Nu heb ik geleerd dat dat niet de juiste definitie is van big data. Juist is, dat we van big data spreken als de data hoeveelheid te groot is om opgeslagen en verwerkt te worden op een enkele machine.

De NAP Studium Generale over Big Data, Science en Machine Learning was georganiseerd door Femke De Jager (Capgemini Consulting). Gastheer op de locatie Sogeti te Amersfoort, was Florent Prisse. Alle dagen zijn we daar prima verzorgd van een hapje en een drankje. Oorspronkelijk was het de bedoeling dat de workshop over 2 dagen verdeeld gehouden zou worden. Het zijn er uiteindelijk 3 geworden op 4 en 10 mei en extra op 29 juni.

Een van de belangrijkste redenen voor de derde dag, was het enthousiasme en helderheid waarop Youssef El Bouhassani, (LINK Data Science) de theorie en later de oefeningen aan de deelnemers bracht. Hij werd hierbij ondersteund door Jeroen Groot (Groot Data Science) en Thom Bleeker. Onder het motto “sifting through the gold of the twenty first century” hebben beide heren ons de “droge” theorie levendig gemaakt met heldere voorbeelden van het omzetten van big data in logische patronen. We hebben hier gebruik gemaakt van de klassieke bloemblaadjes “Iris dataset“ (van Ronald Fisher in zijn 1936 paper 'The use of multiple measurements in taxonomic problems'). Een groot deel van de tweede dag hebben we hieraan besteed. Voor het analytische verwerken van de data hebben we gebruik gemaakt van het gratis en open source programma "R". Deze software en programeer syntax was nieuw voor mij. Het heeft mij aangenaam verrast dat je in een korte tijd (3 avonden!) toch al leuke resultaten kunt bereiken. De derde en laatste avond heeft geheel in het teken gestaan van de “Tata Steel Case”. De echte “diehard nerds” (welke alle drie de dagen aanwezig zijn geweest ...) hebben twee verschillende algoritmes geprogrammeerd voor het classificeren van defecten in metaaloppervlakken. Hier hebben we ook geleerd dat je voor het juist verwerken van big data, zeker ook de context nodig hebt waaronder de data zijn verzameld. Dank aan Kees Jonker (van Tata Steel) voor de toelichting hierop. Big data als een “black box” benaderen is niet aan te bevelen.

Persoonlijk ben ik erg tevreden over deze Studium Generale over Big Data. Niet dat ik nu een expert ben (verre van dat!). Maar ik kan een beetje meepraten en meedenken en heb veel meer inzicht over het onderwerp gekregen."


Koen van Agtmaal: "De afgelopen jaren hebben we vaak de termen Big Data, Data Science en Machine Learning gehoord. Veel bedrijven vragen zich af wat deze termen nou betekenen en, nog belangrijker, wat de toegevoegde waarde is voor hun business. In de workshop o.l.v. Youssef El Bouhassani werd bij Sogeti Amersfoort kennis gemaakt met Data Science en Machine Learning. De betekenis van deze termen en de onderliggende technologie kwam aan bod. Zo werd er werd ingegaan op de opslag van grote hoeveelheden data en het structureren van data tot bruikbare informatie. Daarbij ligt de focus op het ontdekken van patronen die van invloed zijn op bestaande productie assets en het verdienmodel. Dit geschiedde middels het software programma 'R'. R is een softwarepakket en programmeertaal ontwikkeld voor statistiek en data-analysedoeleinden (Bron:https://nl.wikipedia.org/wiki/R_(softwarepakket) .
 

Op zich is het proces rondom de data logisch en praktisch 'behapbaar' te maken en geeft het veel inspiratie om aan de slag te gaan met bedrijfsdata. Enerzijds creëer je met een deel van de data een voorspelbaarheid en vervolgens toets je de betrouwbaarheid ervan middels verschillende test data set. Het riep dan ook persoonlijke ervaringen op van de lessen statistiek uit voorgaande studies. Enige programmeer ervaring en gevoel met programmeertaal is daarbij wel een pre. Het programma is aan te leren. Wel wordt aangeraden het structureel te blijven toepassen.  Gedurende de tweede workshop werden de mogelijkheden duidelijk aan de hand van kleine praktische opdrachten. Deze spraken dan ook goed tot de verbeelding. Met name de visualisaties versterkten de persoonlijke begripsvorming. Daarbij werd de groep ondersteund door Thom en Jeroen, een tweetal studenten van Youssef, die dagelijks met de nieuwe aanpak bezig zijn. Vol enthousiasme en passie spraken zij over hun opleiding en de praktijk opdrachten vanuit de bedrijven die ze voorgeschoteld krijgen.

Vooral voor kwaliteitsmanagers in productieprocessen is het aan te raden en direct toepasbaar. Zo kwam Kees Jonker (Research Lab, Tata Steel) bij de 3e sessie met een case van Tata Steel. Hier is vervolgens de groep mee aan de slag gegaan om een algoritme te ontwikkelen voor het classificeren van defecten in metaaloppervlakken. Al hoewel hier de begripsvorming van de tweede sessie in terug kwam, bleek het persoonlijk een stuk lastiger om met een nog grotere hoeveelheid data aan de slag te gaan. Regelmatige herhaling en toewijding t.a.v. de programmeertaal is daarbij wel gewenst. YouTube en Google bieden daarbij diverse handvatten. Ook  kwamen enkele fanatiekelingen al tijdens de sessie met aanvullende inzichten.

Kortom een leerzame ervaring die nieuwe inzichten en inspiratie biedt."