Data Science met Spark

Leer optimaal gebruikmaken van Spark voor large-scale data science

Cursusvorm

Klassikaal Dit is een leervorm waarbij je tijdens 1 tot 5 aaneengesloten dagen klassikale theorie krijgt aangeboden van een trainer waarna je deze theorie in de praktijk brengt middels opdrachten op een pc. De verhouding tussen theorie en opdrachten is ongeveer 50/50. Deze combinatie zorgt voor een optimale verwerking van de leerstof.

Duur

3 dagen

Studievormen

Dag

Vakgebieden

Business IT

Wil je dit met iemand delen?

Mail door

Ervaren en gecertificeerde trainers

Kleine klassen met ruimte voor veel interactie

Leslocaties door heel Nederland

Startgarantie Deze training gaat gegarandeerd van start. Kijk voor de startmogelijkheden in de planning.

Algemeen
Algemeen
Algemeen
Algemeen
Algemeen

Je gaat aan de slag met Apache Spark en de bijhorende tools voor het uitvoeren van large-scale data science. Op deze manier kun je met Spark en zijn data science en streaming mogelijkheden inzetten voor het maken van geavanceerde data science analyses.

Voor wie

Je wilt op professioneel niveau kennismaken met data science met Spark om zo zelfstandig alle mogelijkheden van machine learning en streaming te kunnen gebruiken.

Voorkennis

Het is van belang dat je bekend bent met de basis van programmeren in Python, datamanipulatie en SQL.

Aanpak

Gedurende deze training ga je aan de slag met PySpark. Ook komen Juypter notebooks en Python shell aan bod. Een zeer ervaren trainer behandelt de theorie en laat met diverse demonstraties zien hoe deze is toe te passen in de praktijk. Je gaat aan de slag met verschillende oefeningen, waardoor een optimale verwerking van de leerstof wordt bewerkstelligd. De verhouding theorie en praktijk is ongeveer 50-50.

Studiemateriaal

De training wordt verzorgd door onze businesspartner GoDataDriven. Je dient je eigen laptop mee te nemen naar de lesbijeenkomsten. Tevens wordt er tijdens de training gebruikgemaakt van notebooks die worden aangeboden via het online platform van GoDataDriven.

Programma
Programma
Programma
Programma
Programma

Inhoud

Spark basics

  • Spark execution
  • SparkSession
  • Transformations versus Actions
  • Laziness en Lineage: hoe Spark code optimaliseert
  • De Spark UI gebruiken

Spark advanced

  • Partitionering en hoe Spark data leest en schrijft
  • Shuffling, narrow en wide operations, en hun impact op de prestaties
  • The Catalyst optimalisator
  • Caching en persistence levels

DataFrames

  • Basisconcepten
  • Alles over Spark DataFrames en Pandas DataFrames
  • DataFrames laden en opslaan
  • De functions API
  • Joining data
  • User Defined Functions en Pandas User Defined Functions (met prestatie-implicaties)
  • Window operations

Spark.ml

  • Machine learning met Spark
  • Preprocessing data en feature engineering
  • Modelselectie
  • Pipeline API
  • Advanced onderwerpen

Spark structured streaming

  • Structured streaming
  • Machine learning and streaming
  • Sources and sink
  • Windows and aggregations
  • Checkpointing and watermarking
  • Fault tolerance and Kafka
  • Kafka als een bron en als een sink

Examen

Na afloop van de training ontvang je het certificaat 'Data Science met Spark' vanuit onze businesspartner GoDataDriven.

Planning
Planning
Planning
Planning
Planning

Duur en plaatsen

Deze training duurt 3 dagen.

De training wordt verzorgd in de regio Amsterdam.

Investering
Investering
Investering
Investering
Investering
Kosten tot 01 september 2020

Bij dag variant, bij betaling in 1 termijn

Trainingskosten
€ 1.531,50
Trainingsmateriaal
€ 100,-
Arrangementen (Food & Beverage)
€ 75,-
Locatiekosten
€ 88,50
Totaalprijs (exclusief BTW)
€ 1.795,-
Kosten vanaf 01 september 2020

Bij dag variant, bij betaling in 1 termijn

Trainingskosten
€ 1.531,50
Trainingsmateriaal
€ 100,-
Arrangementen (Food & Beverage)
€ 75,-
Locatiekosten
€ 88,50
Totaalprijs (exclusief BTW)
€ 1.795,-

Locatie- en arrangementskosten

Computrain regelt voor jou een arrangement bestaande uit onbeperkt koffie, thee en ijswater. In het dagarrangement is ook een uitgebreide lunch inbegrepen. De arrangementskosten bedragen € 25,- (excl. btw) per dag of € 5,50 (excl. btw) per avond. Staat er een verwijzing naar locatie- en arrangementskosten? Dan brengen wij naast arrangementskosten ook locatiekosten in rekening. De locatiekosten bedragen € 29,50 (excl. btw) per dag of € 10,- per avond (excl. btw).

Reprorechten en hand-outs

Voor opleidingen van onze businesspartners worden er kosten voor reprorechten en hand-outs in rekening. Het betreft hier een eenmalig bedrag van € 15,- (excl. btw).

Btw

Kies je voor wettelijk erkend onderwijs, MBO-niveau 2, 3 of 4, Associate degree, HBO Bachelor of volledige Master, dan bieden wij deze opleiding altijd vrijgesteld van btw aan. De overige opleidingen en trainingen zijn belast met 21% btw. Voor organisaties die geen btw kunnen terugvorderen, is vrijstelling van btw mogelijk. In dat geval komt er 10% opslag bovenop de exclusief-btw-prijs. Dit betekent een groot voordeel op de prijs inclusief btw en is een absolute aanrader. Betaal je jouw opleiding of training zelf? Dan geldt er geen opslag van 10%. Studie-, trainingsmaterialen, reprorechten en arrangementskosten zijn altijd belast met 9% btw. Wordt er enkel een totaalprijs vermeld, dan kan het zijn dat op een deel van deze samengestelde prijs btw van toepassing is.

Data Science met Spark

Cursusvorm

Klassikaal Dit is een leervorm waarbij je tijdens 1 tot 5 aaneengesloten dagen klassikale theorie krijgt aangeboden van een trainer waarna je deze theorie in de praktijk brengt middels opdrachten op een pc. De verhouding tussen theorie en opdrachten is ongeveer 50/50. Deze combinatie zorgt voor een optimale verwerking van de leerstof.

Duur

3 dagen

Studievormen

Dag

Vakgebieden

Business IT

Wil je dit met iemand delen?

Mail door

Ervaren en gecertificeerde trainers

Kleine klassen met ruimte voor veel interactie

Leslocaties door heel Nederland

Startgarantie Deze training gaat gegarandeerd van start. Kijk voor de startmogelijkheden in de planning.