Cursusaanbod

Inleiding tot Data Science for Big Data Analytics

    Data Science Overzicht Big Data Overzicht Datastructuren Drijfveren en complexiteiten van Big Data Big Data-ecosysteem en een nieuwe benadering van analyse Sleuteltechnologieën in Big Data Dataminingproces en -problemen Associatiepatroon Mining Dataclustering Uitbijterdetectie Dataclassificatie

Inleiding tot de levenscyclus van Data Analytics

    Ontdekking Gegevensvoorbereiding Modelplanning Modelbouw Presentatie/Communication van de resultaten Operationalisatie Oefening: Case study

Vanaf dit punt zal het grootste deel van de trainingstijd (80%) worden besteed aan voorbeelden en oefeningen in R en gerelateerde big data-technologie.

Aan de slag met R

    R- en Rstudio-functies van de R-taal installeren Objecten in R Gegevens in R Gegevensmanipulatie Big data-problemen Oefeningen

Aan de slag met Hadoop

    Installeren van Hadoop Inzicht in Hadoop modi HDFS MapReduce architectuur Hadoop gerelateerd projectenoverzicht Programma's schrijven in Hadoop MapReduce Oefeningen

R en Hadoop integreren met RHadoop

    Onderdelen van RHadoop RHadoop installeren en verbinden met Hadoop De architectuur van RHadoop Hadoop streamen met R Data-analyse problemen oplossen met RHadoop Oefeningen

Gegevens voorbewerken en voorbereiden

    Stappen voor gegevensvoorbereiding Functie-extractie Gegevens opschonen Gegevensintegratie en transformatie Gegevensreductie – bemonstering, selectie van kenmerksubsets, reductie van dimensionaliteit Discretisatie en binning Oefeningen en casestudy

Verkennende data-analysemethoden in R

    Beschrijvende statistiek Verkennende data-analyse Visualisatie – voorbereidende stappen Visualiseren van een enkele variabele Onderzoeken van meerdere variabelen Statistische methoden voor evaluatie Hypothesetesten Oefeningen en casestudy

Data Visualizations

    Basisvisualisaties in R Pakketten voor datavisualisatie ggplot2, rooster, plotly, rooster Opmaak van plots in R Geavanceerde grafieken Oefeningen

Regressie (toekomstige waarden schatten)

    Lineaire regressie Gebruiksscenario's Modelbeschrijving Diagnostiek Problemen met lineaire regressie Krimpmethoden, ridge-regressie, de lasso Generalisaties en niet-lineariteit Regressiesplines Lokale polynomiale regressie Gegeneraliseerde additieve modellen Regressie met RHadoop Oefeningen en casestudy

Classificatie

    De classificatie-gerelateerde problemen Bayesiaanse opfriscursus Naïeve Bayes Logistieke regressie K-dichtstbijzijnde buren Beslissingsbomen algoritme Neurale netwerken Ondersteuning vectormachines Diagnostiek van classificatoren Vergelijking van classificatiemethoden Scalable classificatie-algoritmen Oefeningen en casestudy

Beoordelen van de prestaties en selectie van modellen

    Bias, variantie en modelcomplexiteit Nauwkeurigheid versus interpreteerbaarheid Classificatoren evalueren Metingen van model-/algoritmeprestaties Hold-out-validatiemethode Kruisvalidatie Machine learning-algoritmen afstemmen met caret-pakket Visualisatie van modelprestaties met Profit ROC en Lift-curves

Ensemble-methoden

    Bagging Random Forests Boosting Gradiëntversterking Oefeningen en casestudy

Ondersteuning van vectormachines voor classificatie en regressie

    Classificatoren voor maximale marge Ondersteun vectorclassificatoren Ondersteun vectormachines SVM's voor classificatieproblemen SVM's voor regressieproblemen
  • Identificeren van onbekende groepen binnen een dataset
  • Functieselectie voor clustering Representatieve algoritmen: k-means, k-medoids Hiërarchische algoritmen: agglomeratieve en verdeeldheid zaaiende methoden Probabilistische basisalgoritmen: EM Op dichtheid gebaseerde algoritmen: DBSCAN, DENCLUE Clustervalidatie Geavanceerde clusterconcepten Clusteren met RHadoop Oefeningen en casestudy

      Verbindingen ontdekken met Linkanalyse

    Concepten voor linkanalyse Metrieken voor het analyseren van netwerken Het Pagerank-algoritme Hyperlink-geïnduceerd onderwerp Search Linkvoorspellingsoefeningen en casestudy

      Associatiepatroonmijnbouw

    Frequent Pattern Mining Model Scalabaarheidsproblemen bij frequente patroonmining Brute Force-algoritmen Apriori-algoritme De FP-groeibenadering Evaluatie van kandidaatregels Toepassingen van associatieregels Validatie en testen Diagnostiek Associatieregels met R en Hadoop Oefeningen en casestudy

      Aanbevelingsmotoren bouwen

    Aanbevelingssystemen begrijpen Dataminingtechnieken die worden gebruikt in aanbevelingssystemen Aanbevelingssystemen met het aanbevelingslabpakket De aanbevelingssystemen evalueren Aanbevelingen met RHadoop Oefening: aanbevelingsengine bouwen

      Tekstanalyse

    Stappen voor tekstanalyse Ruwe tekst verzamelen Zak met woorden Termfrequentie – omgekeerde documentfrequentie Sentimenten bepalen Oefeningen en casestudy

     35 Uren

    Leveringsopties

    PRIVÉGROEPSTRAINING

    Onze identiteit draait om het leveren van precies wat onze klanten nodig hebben.

    • Pre-cursusgesprek met uw trainer
    • Aanpassing van de leerervaring om uw doelen te bereiken -
      • Op maat gemaakte overzichten
      • Praktische, praktische oefeningen met gegevens / scenario's die herkenbaar zijn voor de cursisten
    • Training gepland op een datum naar keuze
    • Gegeven online, op locatie/klaslokaal of hybride door experts die ervaring uit de echte wereld delen

    Private Group Prices RRP from €11400 online delivery, based on a group of 2 delegates, €3600 per additional delegate (excludes any certification / exam costs). We recommend a maximum group size of 12 for most learning events.

    Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen


    OPENBARE TRAINING

    Kijk op onze public courses

    Reviews (2)

    Voorlopige Aankomende Cursussen

    Gerelateerde categorieën