Cursusaanbod

Elke sessie duurt 2 uur

Dag 1: Sessie -1: Business Overzicht van waarom Big Data Business Intelligentie in Govt.

  • Casestudies van NIH, DoE
  • Big Data aanpassingspercentage in Govt. Agentschappen en hoe zij hun toekomstige activiteiten afstemmen op Big Data Predictive Analytics
  • Breed toepassingsgebied in DoD, NSA, IRS, USDA enz.
  • Interface Big Data met oudere gegevens
  • Basiskennis van ondersteunende technologieën in voorspellende analyses
  • Data Integration & Dashboardvisualisatie
  • Fraudebeheer
  • Business Generatie van regels/fraudedetectie
  • Bedreigingsdetectie en profilering
  • Kosten-batenanalyse voor Big Data implementatie

Dag 1: Sessie 2: Introductie van Big Data-1

  • Belangrijkste kenmerken van Big Data-volume, variëteit, snelheid en waarheidsgetrouwheid. MPP-architectuur voor volume.
  • Data Warehouses – statisch schema, langzaam evoluerende dataset
  • MPP Database's zoals Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Gebaseerde oplossingen – geen voorwaarden aan de structuur van de dataset.
  • Typisch patroon: HDFS, MapReduce (crunch), ophalen uit HDFS
  • Batch-geschikt voor analytisch/niet-interactief
  • Volume: CEP-streaminggegevens
  • Typische keuzes – CEP-producten (bijv. Infostreams, Apama, MarkLogic enz.)
  • Minder productieklaar – Storm/S4
  • NoSQL Databases – (kolommen en sleutelwaarde): Meest geschikt als analytische aanvulling op datawarehouse/database

Dag-1: Sessie -3: Inleiding tot Big Data-2

NoSQL oplossingen

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Winkel - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hiërarchisch) - GT.m, cache
  • KV Store (besteld) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV-cache - Memcached, opnieuw gecached, coherentie, Infinispan, EXtremeScale, JBoss cache, snelheid, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Documentopslag - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Brede zuilvormige winkel - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Soorten gegevens: Inleiding tot Data Cleaning uitgave in Big Data

  • RDBMS – statische structuur/schema, bevordert geen flexibele, verkennende omgeving.
  • NoSQL – semi-gestructureerd, voldoende structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
  • Problemen met het opschonen van gegevens

Dag-1: Sessie-4: Big Data Introductie-3: Hadoop

  • Wanneer moet u Hadoop selecteren?
  • GESTRUCTUREERD - Datawarehouses/databases voor ondernemingen kunnen enorme hoeveelheden gegevens opslaan (tegen een vergoeding), maar structuur opleggen (niet goed voor actieve verkenning)
  • SEMI GESTRUCTUREERDE data – moeilijk te doen met traditionele oplossingen (DW/DB)
  • Gegevens opslaan = ENORME inspanning en statisch, zelfs na implementatie
  • Voor verscheidenheid en volume aan gegevens, verwerkt op standaardhardware – HADOOP
  • Commodity H/W was nodig om een Hadoop cluster te creëren

Inleiding tot Map Reduce /HDFS

  • MapReduce – distribueer computergebruik over meerdere servers
  • HDFS – gegevens lokaal beschikbaar maken voor het computerproces (met redundantie)
  • Gegevens – kunnen ongestructureerd/schemaloos zijn (in tegenstelling tot RDBMS)
  • De verantwoordelijkheid van ontwikkelaars om betekenis te geven aan data
  • Programming MapReduce = werken met Java (voor-/nadelen), gegevens handmatig in HDFS laden

Dag 2: Sessie 1: Big Data Ecosysteem bouwen Big Data ETL: universum van Big Data Tools - welke te gebruiken en wanneer?

  • Hadoop versus andere NoSQL oplossingen
  • Voor interactieve, willekeurige toegang tot gegevens
  • Hbase (kolomgeoriënteerde database) bovenop Hadoop
  • Willekeurige toegang tot gegevens maar opgelegde beperkingen (max. 1 PB)
  • Niet goed voor ad-hocanalyses, goed voor loggen, tellen, tijdreeksen
  • Sqoop - Importeren uit databases naar Hive of HDFS (JDBC/ODBC-toegang)
  • Flume – Stream gegevens (bijv. loggegevens) naar HDFS

Dag 2: Sessie 2: Big Data Management Systeem

  • Bewegende delen, rekenknooppunten starten/mislukken: ZooKeeper - Voor configuratie-/coördinatie-/naamgevingsservices
  • Complexe pijplijn/workflow: Oozie – beheer workflow, afhankelijkheden, serieschakeling
  • Implementeren, configureren, clusterbeheer, upgrade enz. (sys admin):Ambari
  • In de cloud: zoem

Dag 2: Sessie 3: Voorspellende analyses in Business Intelligentie -1: Fundamentele technieken en op machine learning gebaseerde BI:

  • Inleiding tot machinaal leren
  • Classificatietechnieken leren
  • Bayesiaans trainingsbestand voor het voorbereiden van voorspellingen
  • Ondersteuning van vectormachine
  • KNN p-Tree Algebra en verticale mijnbouw
  • Neuraal netwerk
  • Big Data groot variabel probleem - Willekeurig bos (RF)
  • Big Data Automatiseringsprobleem – Multi-modellenensemble RF
  • Automatisering via Soft10-M
  • Tekstanalysetool-Treeminer
  • Agile leren
  • Agent-gebaseerd leren
  • Gedistribueerd leren
  • Inleiding tot open source-tools voor voorspellende analyses: R, Rapidminer, Mahut

Dag 2: Sessie 4 Ecosysteem voor voorspellende analyses-2: Veelvoorkomende problemen met voorspellende analyses in Govt.

  • Inzicht analytisch
  • Visualisatie analytisch
  • Gestructureerde voorspellende analyse
  • Ongestructureerde voorspellende analyse
  • Dreiging/fraudeur/leveranciersprofilering
  • Aanbevelingsmotor
  • Patroondetectie
  • Ontdekking van regels/scenario’s – mislukking, fraude, optimalisatie
  • Ontdekking van de oorzaak
  • Sentiment analyse
  • CRM-analyse
  • Netwerkanalyse
  • Tekstanalyse
  • Technologieondersteunde beoordeling
  • Fraudeanalyse
  • Realtime analyse

Dag 3: Sessie 1: Realtime en Scalable-analyse gedurende Hadoop

  • Waarom algemene analytische algoritmen falen in Hadoop/HDFS
  • Apache Hama- voor bulksynchrone, gedistribueerde computergebruik
  • Apache SPARK- voor clustercomputing voor realtime analyse
  • CMU Graphics Lab2 - Op grafieken gebaseerde asynchrone benadering van gedistribueerd computergebruik
  • Op KNN p-Algebra gebaseerde aanpak van Treeminer voor lagere hardwarekosten

Dag 3: Sessie 2 : Tools voor eDiscovery en forensisch onderzoek

  • eDiscovery over Big Data versus oudere gegevens – een vergelijking van kosten en prestaties
  • Voorspellende codering en technologieondersteunde beoordeling (TAR)
  • Live demo van een Tar-product (vMiner) om te begrijpen hoe TAR werkt voor snellere ontdekking
  • Snellere indexering via HDFS – snelheid van gegevens
  • NLP of natuurlijke taalverwerking – verschillende technieken en open source-producten
  • eDiscovery in vreemde talen-technologie voor de verwerking van vreemde talen

Dag 3: Sessie 3: Big Data BI voor Cyber Security – Inzicht in het volledige 360-gradenoverzicht van snelle gegevensverzameling tot identificatie van bedreigingen

  • Inzicht in de basisprincipes van beveiligingsanalyses: aanvalsoppervlak, verkeerde configuratie van beveiliging, hostverdediging
  • Netwerkinfrastructuur/grote datapipe/respons-ETL voor realtime analyse
  • Prescriptief versus voorspellend – Vaste, op regels gebaseerde versus automatische detectie van bedreigingsregels uit metagegevens

Dag 3: Sessie 4: Big Data in USDA: toepassing in de landbouw

  • Inleiding tot IoT (Internet of Things) voor landbouw-sensorgebaseerd Big Data en controle
  • Inleiding tot satellietbeelden en de toepassing ervan in de landbouw
  • Integratie van sensor- en beelddata voor bodemvruchtbaarheid, teeltadvies en prognoses
  • Landbouwverzekeringen en Big Data
  • Voorspelling van oogstverlies

Dag 4: Sessie 1: Fraudepreventie BI uit Big Data in Govt-fraudeanalyse:

  • Basisclassificatie van fraudeanalyses: op regels gebaseerde versus voorspellende analyses
  • Onder toezicht versus onbewaakt Machine learning voor detectie van fraudepatronen
  • Leveranciersfraude/te hoge kosten voor projecten
  • Medicare en Medicaid fraude - fraudedetectietechnieken voor claimverwerking
  • Fraude met reisvergoedingen
  • IRS-terugbetalingsfraude
  • Casestudies en live demo's worden gegeven waar gegevens beschikbaar zijn.

Dag 4: Sessie 2: Social Media Analytisch - Verzamelen en analyseren van inlichtingen

  • Big Data ETL API voor het extraheren van sociale mediagegevens
  • Tekst, beeld, metadata en video
  • Sentimentanalyse van social media-feed
  • Contextueel en niet-contextueel filteren van sociale media-feeds
  • Social Media Dashboard om diverse sociale media te integreren
  • Geautomatiseerde profilering van sociale mediaprofielen
  • Live demo van elke analyse wordt gegeven via Treeminer Tool.

Dag 4: Sessie 3: Big Data Analytisch in beeldverwerking en videofeeds

  • Technieken voor beeldopslag in Big Data - Opslagoplossing voor gegevens groter dan petabytes
  • LTFS en LTO
  • GPFS-LTFS (gelaagde opslagoplossing voor grote beeldgegevens)
  • Fundamenteel van beeldanalyse
  • Object herkenning
  • Segmentatie van afbeeldingen
  • Beweging volgen
  • 3D-beeldreconstructie

Dag 4: Sessie 4: Big Data aanvragen bij NIH:

  • Opkomende gebieden van Bio-informatica
  • Meta-genomica en Big Data mijnbouwkwesties
  • Big Data Voorspellende analyse voor farmacogenomica, metabolomics en proteomics
  • Big Data in het stroomafwaartse Genomics-proces
  • Toepassing van voorspellende analyses van big data in de volksgezondheid

Big Data Dashboard voor snelle toegang tot diverse gegevens en weergave:

  • Integratie van bestaand applicatieplatform met Big Data Dashboard
  • Big Data beheer
  • Casestudy van Big Data Dashboard: Tableau en Pentaho
  • Gebruik de app Big Data om locatiegebaseerde services in Govt te pushen.
  • Volgsysteem en beheer

Dag 5: Sessie 1: Hoe Big Data BI-implementatie binnen een organisatie rechtvaardigen:

  • ROI definiëren voor Big Data implementatie
  • Casestudies om tijd voor analisten te besparen bij het verzamelen en voorbereiden van gegevens – verhoging van de productiviteitswinst
  • Casestudy's van inkomstenwinst door het besparen van gelicentieerde databasekosten
  • Inkomstenwinst uit locatiegebaseerde diensten
  • Besparen op fraudepreventie
  • Een geïntegreerde spreadsheetbenadering om ca. kosten versus inkomstenwinst/besparingen uit Big Data implementatie.

Dag 5: Sessie 2: Stapsgewijze procedure om het oude datasysteem te vervangen naar Big Data Systeem:

  • Praktisch inzicht Big Data Migratieroutekaart
  • Wat is de belangrijke informatie die nodig is voordat een Big Data implementatie wordt ontworpen
  • Wat zijn de verschillende manieren om het volume, de snelheid, de variëteit en de waarheidsgetrouwheid van gegevens te berekenen?
  • Hoe de datagroei te schatten
  • Casestudies

Dag 5: Sessie 4: Beoordeling van Big Data leveranciers en beoordeling van hun producten. Vraag/A-sessie:

  • Accenture
  • APTEAN (voorheen CDC-software)
  • Cisco Systemen
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guaves
  • Hitachi-datasystemen
  • Hortonwerken
  • PK
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Voorheen 10Gen)
  • MU Sigma
  • Netapp
  • Opera-oplossingen
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackruimte
  • Revolutieanalyse
  • Salesforce
  • SAP
  • SAS Instituut
  • Sisense
  • Software AG/Terracotta
  • Soft10-automatisering
  • Splunk
  • Sqrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Denk aan grote analyses
  • Getijdenmarkeringssystemen
  • Boommijnwerker
  • VMware (Onderdeel van EMC)

Vereisten

  • Basiskennis van bedrijfsvoering en datasystemen bij de overheid. in hun domein
  • Basiskennis van SQL/Oracle of relationele databases
  • Basiskennis van Statistics (op spreadsheetniveau)
 35 Uren

Leveringsopties

PRIVÉGROEPSTRAINING

Onze identiteit draait om het leveren van precies wat onze klanten nodig hebben.

  • Pre-cursusgesprek met uw trainer
  • Aanpassing van de leerervaring om uw doelen te bereiken -
    • Op maat gemaakte overzichten
    • Praktische, praktische oefeningen met gegevens / scenario's die herkenbaar zijn voor de cursisten
  • Training gepland op een datum naar keuze
  • Gegeven online, op locatie/klaslokaal of hybride door experts die ervaring uit de echte wereld delen

Private Group Prices RRP from €11400 online delivery, based on a group of 2 delegates, €3600 per additional delegate (excludes any certification / exam costs). We recommend a maximum group size of 12 for most learning events.

Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen


OPENBARE TRAINING

Kijk op onze public courses

Reviews (1)

Voorlopige Aankomende Cursussen

Gerelateerde categorieën