Welkom bij de cursus Big Data Pipelines bouwen met SparkR & Tableau & MongoDB. In deze cursus zullen we een big data-analyseoplossing maken met behulp van big data-technologieën voor R.
In onze use case zullen we werken met ruwe aardbevingsgegevens en zullen we big data-verwerkingstechnieken toepassen om de gegevens te transformeren en in bruikbare datasets te laden.
Zodra we de gegevens hebben verwerkt en opgeschoond, zullen we deze gebruiken als gegevensbron voor het bouwen van voorspellende analyses en visualisaties.
Tableau Desktop is een krachtige tool voor gegevensvisualisatie, die wordt gebruikt voor analyse en visualisatie van big data. Het zorgt voor data blending, real-time analyse en samenwerking van data.
Nee programmeren is nodig voor Tableau Desktop, wat het een zeer eenvoudige en krachtige tool maakt om dashboards-apps en rapporten te maken.
SparkR is een R-pakket dat een lichtgewicht frontend biedt om Apache Spark van R te gebruiken.
SparkR biedt een gedistribueerde dataframe-implementatie die bewerkingen ondersteunt zoals selectie, filtering, aggregatie enz. (vergelijkbaar met R-dataframes, dplyr) maar op grote datasets. SparkR ondersteunt ook gedistribueerde machine learning met behulp van MLlib.
MongoDB is een documentgeoriënteerdeNoSQL-database die wordt gebruikt voor gegevensopslag met grote volumes. Het slaat gegevens opin JSON-achtig formaat, documenten genaamd, en gebruikt geen rij-/kolomtabellen. Het documentmodel is gekoppeld aan de objecten in uw applicatiecode, waardoor u gemakkelijk met de gegevens kunt werken