BUIBID

BUIBID

BUIBID


Fichier Détails

Cartes-fiches 79
Langue Deutsch
Catégorie Technique
Niveau Université
Crée / Actualisé 13.03.2022 / 18.06.2022
Lien de web
https://card2brain.ch/box/20220313_buibid
Intégrer
<iframe src="https://card2brain.ch/box/20220313_buibid/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was ist ein Data Warehouse?

  • Eine themenbezogene, konsolidierte und dauerhaft gespeicherte Ansammlung von Daten. Die Speicherung erfolgt strukturiert in denormalisierten relationalen Datenbanken.
  • Dient der abteilungsübergreifenden Auswertung von Informationen und unterstützt den 
    Entscheidungsprozess
    in einem Unternehmen.
  • Das Data Warehouse-System wird von operativen Systemen mit Informationen befüllt, die in der Data Staging
    Area
    konsolidiert werden. 
  • Mittels ETL-Prozesse werden die Informationen bereinigt, konsolidiert und aggregiert 
    in ein Data Warehouse überführt. 

Was ist das Ziel von einem Data Warehouse?

  • Trennung operativer und analytischer Datenbanken: Vermeidung, dass Abfragen auf die Datenbank die Performance des operativen Systems beeinflussen.
  • Zentrale Datenhaltung
  • Integration verschiedener Datenquellen
  • Historisierung der Daten

Was ist Hadoop?

  • Hadoop kümmert sich um die Verarbeitung von Big Data
  • Basiet auf Map-Reduce Algorithmus von Google
  • Open-Source Software
  • 4 Bestandteile: Hadoop Common, HDFS, YARN, Map-Reduce

Wofür wird Hadoop eingesetzt?

Was sind Vor- und Nachteile von Hadoop?

Vorteile:

  • Verteile Speicherung (HDFS)
  • Verteilte Verarbeitung (MapReduce)
  • Open Source
  • Grosses Ökosystem

 

Nachteile:

  • Hohe Latenz bei Abfragen
  • Machine Learning kaum möglich

 

 

Was ist HDFS?

HDFS ist ein Bestandteil vom Hadoop Framework. Seine Aufgabe ist es die Daten effizient zu verwalten und zu speichern. HDFS ist vor allem für grosse Files geeignet. Ein Vorteil von HDFS ist, dass es sehr fehlertolerant ist.

Was sind Vor- und Nachteile von HDFS?

Vorteile:

  • Möglichkeit große Datenmengen in einem verteilten Cluster zu speichern. Das ist in den meisten Fällen deutlich günstiger als die Informationen auf einer einzigen Maschine abzuspeichern.
  • Hohe Fehlertoleranz und dadurch hochverfügbare Systeme
  • Open Source

 

Nachteile:

  • Daten sind nicht vor Hackern geschützt

Was ist YARN (Yet Another Resource Negotiatior)?

  • Ist das Hirn von Hadoop
  • Schnittstelle zwischen Speichersystem und Verarbeitungsengine
  • Dient zur Ausführung und Verarbeitung von in HDFS gespeicherten Daten

Wie sieht die Architektur von YARN aus?

Was sind Anwendungsgebiete von YARN?

Was sind Vor- und Nachteile von YARN?

Vorteile:

  • Bessere Ressourcennutzung
  • Ausführung von Nicht-MapReduce-Anwendungen

 

Nachteile: 

  • YARN greifft auf lokale Datenspeicherungen zurück. Dadurch besteht die Gefahr von Datalakes.

Was ist MapReduce?

Map Reduce ist ein Verfahren, mit dem grosse strukturierte oder unstrukturieren Datenmengen mit hoher Geschwindigkeit verarbeitet werden können. Urspünglich wurde es von Google für die Indexierung von Websites entwickelt.

 

Wie funktioniert MapReduce?

Map stellt die Funktion dar, die Aufgaben an unterschiedliche Knoten zu verteilen. Dabei werden die Daten in einzelne Bestandteile zerlegt.

Wenn die Mapper ihre Aufgabe, die Daten in Einzelteile zu zerlegen, erfüllt haben, werden sie an die Reducer übertragen. Dieser Übertritt wird auch Shuffling genannt. Dabei werden alle Daten, die denselben Schlüssel haben, einem Reducer zugeordnet.

Sobald die Daten bei den Reducern ankommen, werden die Werte, die alle demselben Schlüssel zugehören, aggregiert und als gemeinsamer Output ausgegeben

Was sind Vor- und Nachteile von MapReduce?

Was sind Anwendungsgebiete von MapReduce?

- Yahoo verwendet MapReduce für den Index-Aufbau
- Viele E-Mail-Provider setzen MapReduce für die Spam-Erkennung ein
- Facebook nutzt MapReduce für Data Mining, Ad-Optimierung sowie die SpamErkennung

Was ist Hive?

  • Erweiterung Hadoop um ein Data-Warehouse-System
  • Eigene Sprache HiveQL (übersetzt SQL in MapReduce-Jobs)
  • Drei Haupfunktionen: Daten zusammenfassen, abfragen und analysieren

Wie funktioniert Hive?

Was sind Vor- und Nachteile von Hive?

Vorteile: 

  • Schreiben von Abfragen für MapReduce in der Hive Query Language (HQL), einer SQL ähnlichen Sprache.
  • Geringe Einarbeitungszeit und Lernkosten für Entwickler.
  • Hive unterstützt benutzerdefinierte Funktionen.
  • Open Source

 

Nachteile:

  • Hive ist nicht sehr effizient und realtiv hohe Latenz
  • Hive's HQL Abfragesprache ist begrenzt.

Was ist Pig?

  • Dient als Erweiterung für Hadoop. Damit können MapReduce einfacher als mit Java erstellt werden
  • Eigene Sprache Pig (ermöglicht es, eine Reihe von Datentransformationen zu spezifizieren)
  • Benutzerdefinierte Funktionen können erstellt werden

Wie funktioniert Pig?

Pig kann mit Daten auf dem lokalen Dateisystem sowie HDFS arbeiten. Unabhängig davon, können Pig Programme auf drei Arten ausgeführt werden:

Interactive Mode: In diesem Modus wird Pig in der Grunt-Shell ausgeführt. So können Pig Latin-Anweisungen und Befehle interaktiv in der Befehlszeile eingeben werden.

Batch Mode: In diesem Modus können wir eine Datei mit der Erweiterung .pig ausführen. Diese Dateien enthalten Pig Latin-Befehle.

Embedded Mode: In diesem Modus können eigene Funktionen definiert werden. Diese Funktionen können als UDF (User Defined Functions) bezeichnet werden. Diese Funktionen können mittels den Programmiersprachen Java, Python, JavaScript, Ruby oder Groovy erstellt werden

 

Was Sind Anwendungsgebiete für Pig?

Was sind Vor- und Nachteile von Pig?

Vorteile:

  • Auch für Non-Programmierer 
  • Open Source
  • Effiziente und leichte Erstellung von MapReduce-Jobs

 

Nachteile:

  • Keine erweitere Funktionen wie Spark
  • Etwas veraltet bzw. nicht ausgereift

Was ist HBase?

  • Erweitert Hadoop um ein Datenverwaltungssystem
  • Spaltenorientierte Datenbank
  • Zugriff auf Zeilen über Zeilenschlüssel (Row Key)
  • Funktionen: Abfrage auf Daten, Daten speichern, Daten löschen

Was sind Vor- und Nachteile von HBase?

Vorteile:

  • Echtzeitabfragen können jederzeit gemacht werden
  • Es kann eine riesige Menge an Daten gespeichert werden und diese können schnell verarbeitet werden
  • HBase ist ein Open-Source Projekt und horizontal skalierbar
  • Es speichert nur echte Daten – man braucht keine NULL-Platzhalter, wie in anderen Datenbanken mit festem Schemata

 

Nachteile:

  • Die SQL-Struktur wird nicht unterstützt
  • Der Datenzugriff funktioniert nur über Zeilen- oder Spaltenschlüssel

 

Was sind Anwedungsgebiete von HBase?

Was ist Spark?

 Apache Spark ist das einzige Verarbeitungsframework, das Daten und künstliche Intelligenz kombiniert.

Was sind die Komponenten von Spark?

Was sind Anwendungsgebiete von Spark?

  • Bietet Auswahl an verschiedenen Machine-Learning-Algorithmen
  • Bietet Möglichkeit für Deep Learning

Was sind Vor- und Nachteile von Spark?

Was sind die Merkmale von Daten?

  • Es sind Informationen
  • Stehen in digitaler Form zur Verfügung
  • Können durch ein Organ oder Gerät (z. B. Laptop) ausgegeben werden

Wie werden Daten zu Big Data?

  • Volume: Grosse Datenmengen
  • Variety: Vielfalt von Dateistrukturen (strukturiert, semi-strukturiert und unstrukturiert)
  • Velocity: Daten werden mit erhöhter Geschwindigkeit produziert und verarbeitet
  • Veracity: Unsicherheit der Datenqualität. Daten müssen daher nachbearbeitet werden
  • Value: Business Value, welcher dank grossen Datenmengen & Machine Learning erreicht werden kann

Welche Methoden der Datenanalyse gibt es?

Descriptive Analytics:

  • Daten aus der Vergangenheit
  • Erkennung was passiert ist (also was falsch und was richtig war), aber nicht wieso. 
  • Deshalb wird die deskriptive Datenanalyse meist mit anderen Analysemethoden kombiniert, um ein umfassendes, aussagekräftiges Ergebnis zu erlangen.

 

Diagonstic Analytics:

  • Daten aus der Vergangenheit in Kombination mit anderen Daten
  • Zusammenhände, Ursachen und Wechselwirkungen erkennen 

 

Predictive Analytics:

  • Daten aus bereits durchgeführen deskriptiver oder diagnostischer Analysen
  • Zukunftvorhersagen anhand komplexer Technologien machen
  • Je besser die Daten sind, desto besser ist die Vorhersage

 

Prescriptive Analytics:

  • Analyse, wie sich verschiedene Vorgehensweisen auf ein Ergebnis auswirken

Was ist eine Batch-Verarbeitung?

  • Daten werden extrahiert, transformiert und geladen
  • Dieser Prozess wird mit neuen Daten über Nacht durchgeführt
  • Falls Aktualität wichtig ist, kann dieser Prozess auch jede halbe Stunden durchgeführt werden
  • Für noch schnellere Aktualität braucht es die Lambda-Architektur

Was ist eine Lambda-Architektur?

Ist schneller als Batch-Verarbeitung.

Batch Layer - Datenvorberechnung
Der Batch Layer verfügt über ein redundantes, verteiltes Verarbeitungssystem, in dem sehr große Datenmengen gleichzeitig verarbeitet und berechnet werden. Mit zunehmender Datenmenge erhöht sich auch die Laufzeit der Datenverarbeitung und kann mitunter mehrere Stunden umfassen. Bei der Berechnung wird auf Genauigkeit und Vollständigkeit geachtet.

Speed Layer - Lückenschließer
Im Speed Layer werden Echtzeit Ansichten der neuesten Daten berechnet und für externe Systeme zur Verfügung gestellt. Die Genauigkeit und Vollständigkeit spielt eine nachrangige Rolle. Ziel ist es die Latenzzeit des Batch Layers auszugleichen und eine vorläufige Datensicht bereitzustellen. Sind die Berechnungen im Batch Layer abgeschlossen, werden diese unmittelbar in den Speed Layer integriert.

Serving Layer - Datenlieferant
Die Ergebnisse des Batch und Speed Layers werden im Serving Layer gespeichert. Der Serving Layer ermöglicht die Bedienung von Ad-hoc Anfragen durch vorberechnete Datensichten oder aus dem vorgelagerten Verarbeitungsprozess.

Was sind Vor- und Nachteile der Lambda-Architektur?

Vorteile:

  • Man kann durch den Speed Layer Daten in Echtzeit bekommen

 

Nachteile:

  • Man hat zwei Systeme Parallel (Batch und Speed)

Was ist Data Mining?

  • Es geht um die Erkennung von Muster oder Trends in grossen Datenmengen
  • Wird mithilfe von Methoden aus der Informatik und der Statistik sowie Verfahren der künstlichen Intelligenz und des Maschinellen Lernens durchgeführt
  • Es geht nicht um die Sammlung von Daten

Welche Aufgaben kann Data Mining übernehmen?

Was sind mögliche Verfahren und Algorithmen, welche bei Data Mining verwendet werden können?

Was ist CRISP-DM?

  • Ein einheitlicher Data Mining Prozessablauf für Unternehmen bereitzustellen
  • Ergebnisse des Data Minings sollen durch das CRISP-DM-Modell schneller und präziser zur Verfügung gestellt werden

 

Welche sechs Phasen hat CRISP-DM?