In deze MOOC PySpark MongoDB gaan we een intelligente datareeks ontwikkelen. Daarbij maken we gebruik van Big Data-technologieën zoals Apache Spark en MongoDB.
Het gaat om een datareeks ETLP (Extract, Transform, Load and Predict). Dit zijn verschillende stadia waardoorheen de data moet gaan alvorens deze bruikbaar wordt. Naarmate de data deze stadia heeft doorstaan, dan kunnen we het gebruiken om rapporten te schrijven voor data-analyse.
De datareeks die we in deze MOOC PySpark MongoDB zullen creëren, bestaat uit dataverwerking met PySpark, voorspellend modelleren met Spark’s MLlib machine learning database en data-analyse met behulp van MongoDB en Bokeh.
Kortom, PySpark, MongoDB en Bokeh vormen een krachtige combinatie voor big data-analyse en -visualisatie. Met PySpark kunnen grote hoeveelheden gegevens worden verwerkt, MongoDB biedt flexibele opslag van ongestructureerde gegevens en Bokeh maakt aantrekkelijke en interactieve visualisaties mogelijk om inzicht te krijgen in de gegevens.
Een veelvoorkomend gebruik van PySpark in combinatie met MongoDB is het verwerken en analyseren van grote hoeveelheden ongestructureerde gegevens, zoals logboeken, sensorgegevens of sociale media-berichten. Laten we een voorbeeld bekijken van hoe PySpark en MongoDB kunnen worden gebruikt om loggegevens van een webserver te verwerken en interessante inzichten te verkrijgen.
Een ander voorbeeld kan zijn. Stel dat we sensorgegevens hebben van verschillende meetstations die temperatuur en luchtvochtigheid meten. Onze taak is om deze gegevens te analyseren, aggregaties uit te voeren en de resultaten op een kaart te visualiseren. Dan kunnen we PySpark en MongoDB gebruiken om sensorgegevens te verwerken en vervolgens een interactieve kaart met Bokeh maken om de gegevens visueel weer te geven.