Bedankt voor uw aanvraag! Een van onze medewerkers neemt binnenkort contact met u op
Bedankt voor uw boeking! Een van onze medewerkers neemt binnenkort contact met u op.
Cursusaanbod
Elke sessie duurt 2 uur
Dag 1: Sessie -1: Business Overzicht van waarom Big Data Business Intelligentie in Govt.
- Casestudies van NIH, DoE
- Big Data aanpassingspercentage in Govt. Agentschappen en hoe zij hun toekomstige activiteiten afstemmen op Big Data Predictive Analytics
- Breed toepassingsgebied in DoD, NSA, IRS, USDA enz.
- Interface Big Data met oudere gegevens
- Basiskennis van ondersteunende technologieën in voorspellende analyses
- Data Integration & Dashboardvisualisatie
- Fraudebeheer
- Business Generatie van regels/fraudedetectie
- Bedreigingsdetectie en profilering
- Kosten-batenanalyse voor Big Data implementatie
Dag 1: Sessie 2: Introductie van Big Data-1
- Belangrijkste kenmerken van Big Data-volume, variëteit, snelheid en waarheidsgetrouwheid. MPP-architectuur voor volume.
- Data Warehouses – statisch schema, langzaam evoluerende dataset
- MPP Database's zoals Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Gebaseerde oplossingen – geen voorwaarden aan de structuur van de dataset.
- Typisch patroon: HDFS, MapReduce (crunch), ophalen uit HDFS
- Batch-geschikt voor analytisch/niet-interactief
- Volume: CEP-streaminggegevens
- Typische keuzes – CEP-producten (bijv. Infostreams, Apama, MarkLogic enz.)
- Minder productieklaar – Storm/S4
- NoSQL Databases – (kolommen en sleutelwaarde): Meest geschikt als analytische aanvulling op datawarehouse/database
Dag-1: Sessie -3: Inleiding tot Big Data-2
NoSQL oplossingen
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Winkel - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hiërarchisch) - GT.m, cache
- KV Store (besteld) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV-cache - Memcached, opnieuw gecached, coherentie, Infinispan, EXtremeScale, JBoss cache, snelheid, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Documentopslag - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Brede zuilvormige winkel - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Soorten gegevens: Inleiding tot Data Cleaning uitgave in Big Data
- RDBMS – statische structuur/schema, bevordert geen flexibele, verkennende omgeving.
- NoSQL – semi-gestructureerd, voldoende structuur om gegevens op te slaan zonder exact schema voordat gegevens worden opgeslagen
- Problemen met het opschonen van gegevens
Dag-1: Sessie-4: Big Data Introductie-3: Hadoop
- Wanneer moet u Hadoop selecteren?
- GESTRUCTUREERD - Datawarehouses/databases voor ondernemingen kunnen enorme hoeveelheden gegevens opslaan (tegen een vergoeding), maar structuur opleggen (niet goed voor actieve verkenning)
- SEMI GESTRUCTUREERDE data – moeilijk te doen met traditionele oplossingen (DW/DB)
- Gegevens opslaan = ENORME inspanning en statisch, zelfs na implementatie
- Voor verscheidenheid en volume aan gegevens, verwerkt op standaardhardware – HADOOP
- Commodity H/W was nodig om een Hadoop cluster te creëren
Inleiding tot Map Reduce /HDFS
- MapReduce – distribueer computergebruik over meerdere servers
- HDFS – gegevens lokaal beschikbaar maken voor het computerproces (met redundantie)
- Gegevens – kunnen ongestructureerd/schemaloos zijn (in tegenstelling tot RDBMS)
- De verantwoordelijkheid van ontwikkelaars om betekenis te geven aan data
- Programming MapReduce = werken met Java (voor-/nadelen), gegevens handmatig in HDFS laden
Dag 2: Sessie 1: Big Data Ecosysteem bouwen Big Data ETL: universum van Big Data Tools - welke te gebruiken en wanneer?
- Hadoop versus andere NoSQL oplossingen
- Voor interactieve, willekeurige toegang tot gegevens
- Hbase (kolomgeoriënteerde database) bovenop Hadoop
- Willekeurige toegang tot gegevens maar opgelegde beperkingen (max. 1 PB)
- Niet goed voor ad-hocanalyses, goed voor loggen, tellen, tijdreeksen
- Sqoop - Importeren uit databases naar Hive of HDFS (JDBC/ODBC-toegang)
- Flume – Stream gegevens (bijv. loggegevens) naar HDFS
Dag 2: Sessie 2: Big Data Management Systeem
- Bewegende delen, rekenknooppunten starten/mislukken: ZooKeeper - Voor configuratie-/coördinatie-/naamgevingsservices
- Complexe pijplijn/workflow: Oozie – beheer workflow, afhankelijkheden, serieschakeling
- Implementeren, configureren, clusterbeheer, upgrade enz. (sys admin):Ambari
- In de cloud: zoem
Dag 2: Sessie 3: Voorspellende analyses in Business Intelligentie -1: Fundamentele technieken en op machine learning gebaseerde BI:
- Inleiding tot machinaal leren
- Classificatietechnieken leren
- Bayesiaans trainingsbestand voor het voorbereiden van voorspellingen
- Ondersteuning van vectormachine
- KNN p-Tree Algebra en verticale mijnbouw
- Neuraal netwerk
- Big Data groot variabel probleem - Willekeurig bos (RF)
- Big Data Automatiseringsprobleem – Multi-modellenensemble RF
- Automatisering via Soft10-M
- Tekstanalysetool-Treeminer
- Agile leren
- Agent-gebaseerd leren
- Gedistribueerd leren
- Inleiding tot open source-tools voor voorspellende analyses: R, Rapidminer, Mahut
Dag 2: Sessie 4 Ecosysteem voor voorspellende analyses-2: Veelvoorkomende problemen met voorspellende analyses in Govt.
- Inzicht analytisch
- Visualisatie analytisch
- Gestructureerde voorspellende analyse
- Ongestructureerde voorspellende analyse
- Dreiging/fraudeur/leveranciersprofilering
- Aanbevelingsmotor
- Patroondetectie
- Ontdekking van regels/scenario’s – mislukking, fraude, optimalisatie
- Ontdekking van de oorzaak
- Sentiment analyse
- CRM-analyse
- Netwerkanalyse
- Tekstanalyse
- Technologieondersteunde beoordeling
- Fraudeanalyse
- Realtime analyse
Dag 3: Sessie 1: Realtime en Scalable-analyse gedurende Hadoop
- Waarom algemene analytische algoritmen falen in Hadoop/HDFS
- Apache Hama- voor bulksynchrone, gedistribueerde computergebruik
- Apache SPARK- voor clustercomputing voor realtime analyse
- CMU Graphics Lab2 - Op grafieken gebaseerde asynchrone benadering van gedistribueerd computergebruik
- Op KNN p-Algebra gebaseerde aanpak van Treeminer voor lagere hardwarekosten
Dag 3: Sessie 2 : Tools voor eDiscovery en forensisch onderzoek
- eDiscovery over Big Data versus oudere gegevens – een vergelijking van kosten en prestaties
- Voorspellende codering en technologieondersteunde beoordeling (TAR)
- Live demo van een Tar-product (vMiner) om te begrijpen hoe TAR werkt voor snellere ontdekking
- Snellere indexering via HDFS – snelheid van gegevens
- NLP of natuurlijke taalverwerking – verschillende technieken en open source-producten
- eDiscovery in vreemde talen-technologie voor de verwerking van vreemde talen
Dag 3: Sessie 3: Big Data BI voor Cyber Security – Inzicht in het volledige 360-gradenoverzicht van snelle gegevensverzameling tot identificatie van bedreigingen
- Inzicht in de basisprincipes van beveiligingsanalyses: aanvalsoppervlak, verkeerde configuratie van beveiliging, hostverdediging
- Netwerkinfrastructuur/grote datapipe/respons-ETL voor realtime analyse
- Prescriptief versus voorspellend – Vaste, op regels gebaseerde versus automatische detectie van bedreigingsregels uit metagegevens
Dag 3: Sessie 4: Big Data in USDA: toepassing in de landbouw
- Inleiding tot IoT (Internet of Things) voor landbouw-sensorgebaseerd Big Data en controle
- Inleiding tot satellietbeelden en de toepassing ervan in de landbouw
- Integratie van sensor- en beelddata voor bodemvruchtbaarheid, teeltadvies en prognoses
- Landbouwverzekeringen en Big Data
- Voorspelling van oogstverlies
Dag 4: Sessie 1: Fraudepreventie BI uit Big Data in Govt-fraudeanalyse:
- Basisclassificatie van fraudeanalyses: op regels gebaseerde versus voorspellende analyses
- Onder toezicht versus onbewaakt Machine learning voor detectie van fraudepatronen
- Leveranciersfraude/te hoge kosten voor projecten
- Medicare en Medicaid fraude - fraudedetectietechnieken voor claimverwerking
- Fraude met reisvergoedingen
- IRS-terugbetalingsfraude
- Casestudies en live demo's worden gegeven waar gegevens beschikbaar zijn.
Dag 4: Sessie 2: Social Media Analytisch - Verzamelen en analyseren van inlichtingen
- Big Data ETL API voor het extraheren van sociale mediagegevens
- Tekst, beeld, metadata en video
- Sentimentanalyse van social media-feed
- Contextueel en niet-contextueel filteren van sociale media-feeds
- Social Media Dashboard om diverse sociale media te integreren
- Geautomatiseerde profilering van sociale mediaprofielen
- Live demo van elke analyse wordt gegeven via Treeminer Tool.
Dag 4: Sessie 3: Big Data Analytisch in beeldverwerking en videofeeds
- Technieken voor beeldopslag in Big Data - Opslagoplossing voor gegevens groter dan petabytes
- LTFS en LTO
- GPFS-LTFS (gelaagde opslagoplossing voor grote beeldgegevens)
- Fundamenteel van beeldanalyse
- Object herkenning
- Segmentatie van afbeeldingen
- Beweging volgen
- 3D-beeldreconstructie
Dag 4: Sessie 4: Big Data aanvragen bij NIH:
- Opkomende gebieden van Bio-informatica
- Meta-genomica en Big Data mijnbouwkwesties
- Big Data Voorspellende analyse voor farmacogenomica, metabolomics en proteomics
- Big Data in het stroomafwaartse Genomics-proces
- Toepassing van voorspellende analyses van big data in de volksgezondheid
Big Data Dashboard voor snelle toegang tot diverse gegevens en weergave:
- Integratie van bestaand applicatieplatform met Big Data Dashboard
- Big Data beheer
- Casestudy van Big Data Dashboard: Tableau en Pentaho
- Gebruik de app Big Data om locatiegebaseerde services in Govt te pushen.
- Volgsysteem en beheer
Dag 5: Sessie 1: Hoe Big Data BI-implementatie binnen een organisatie rechtvaardigen:
- ROI definiëren voor Big Data implementatie
- Casestudies om tijd voor analisten te besparen bij het verzamelen en voorbereiden van gegevens – verhoging van de productiviteitswinst
- Casestudy's van inkomstenwinst door het besparen van gelicentieerde databasekosten
- Inkomstenwinst uit locatiegebaseerde diensten
- Besparen op fraudepreventie
- Een geïntegreerde spreadsheetbenadering om ca. kosten versus inkomstenwinst/besparingen uit Big Data implementatie.
Dag 5: Sessie 2: Stapsgewijze procedure om het oude datasysteem te vervangen naar Big Data Systeem:
- Praktisch inzicht Big Data Migratieroutekaart
- Wat is de belangrijke informatie die nodig is voordat een Big Data implementatie wordt ontworpen
- Wat zijn de verschillende manieren om het volume, de snelheid, de variëteit en de waarheidsgetrouwheid van gegevens te berekenen?
- Hoe de datagroei te schatten
- Casestudies
Dag 5: Sessie 4: Beoordeling van Big Data leveranciers en beoordeling van hun producten. Vraag/A-sessie:
- Accenture
- APTEAN (voorheen CDC-software)
- Cisco Systemen
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guaves
- Hitachi-datasystemen
- Hortonwerken
- PK
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Voorheen 10Gen)
- MU Sigma
- Netapp
- Opera-oplossingen
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackruimte
- Revolutieanalyse
- Salesforce
- SAP
- SAS Instituut
- Sisense
- Software AG/Terracotta
- Soft10-automatisering
- Splunk
- Sqrl
- Supermicro
- Tableau Software
- Teradata
- Denk aan grote analyses
- Getijdenmarkeringssystemen
- Boommijnwerker
- VMware (Onderdeel van EMC)
Vereisten
- Basiskennis van bedrijfsvoering en datasystemen bij de overheid. in hun domein
- Basiskennis van SQL/Oracle of relationele databases
- Basiskennis van Statistics (op spreadsheetniveau)
35 Uren
Leveringsopties
PRIVÉGROEPSTRAINING
Onze identiteit draait om het leveren van precies wat onze klanten nodig hebben.
- Pre-cursusgesprek met uw trainer
- Aanpassing van de leerervaring om uw doelen te bereiken -
- Op maat gemaakte overzichten
- Praktische, praktische oefeningen met gegevens / scenario's die herkenbaar zijn voor de cursisten
- Training gepland op een datum naar keuze
- Gegeven online, op locatie/klaslokaal of hybride door experts die ervaring uit de echte wereld delen
Private Group Prices RRP from €11400 online delivery, based on a group of 2 delegates, €3600 per additional delegate (excludes any certification / exam costs). We recommend a maximum group size of 12 for most learning events.
Neem contact met ons op voor een exacte offerte en om onze laatste promoties te horen
OPENBARE TRAINING
Kijk op onze public courses
Reviews (1)
Het vermogen van de trainer om de cursus af te stemmen op de eisen van de organisatie, anders dan alleen het geven van de cursus om deze te geven.
Masilonyane - Revenue Services Lesotho
Cursus - Big Data Business Intelligence for Govt. Agencies
Automatisch vertaald