BUIBID
BUIBID
BUIBID
Set of flashcards Details
Flashcards | 79 |
---|---|
Language | Deutsch |
Category | Technology |
Level | University |
Created / Updated | 13.03.2022 / 18.06.2022 |
Weblink |
https://card2brain.ch/box/20220313_buibid
|
Embed |
<iframe src="https://card2brain.ch/box/20220313_buibid/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Was ist ein Data Warehouse?
- Eine themenbezogene, konsolidierte und dauerhaft gespeicherte Ansammlung von Daten. Die Speicherung erfolgt strukturiert in denormalisierten relationalen Datenbanken.
- Dient der abteilungsübergreifenden Auswertung von Informationen und unterstützt den
Entscheidungsprozess in einem Unternehmen. - Das Data Warehouse-System wird von operativen Systemen mit Informationen befüllt, die in der Data Staging
Area konsolidiert werden. - Mittels ETL-Prozesse werden die Informationen bereinigt, konsolidiert und aggregiert
in ein Data Warehouse überführt.
Was ist das Ziel von einem Data Warehouse?
- Trennung operativer und analytischer Datenbanken: Vermeidung, dass Abfragen auf die Datenbank die Performance des operativen Systems beeinflussen.
- Zentrale Datenhaltung
- Integration verschiedener Datenquellen
- Historisierung der Daten
Was ist Hadoop?
- Hadoop kümmert sich um die Verarbeitung von Big Data
- Basiet auf Map-Reduce Algorithmus von Google
- Open-Source Software
- 4 Bestandteile: Hadoop Common, HDFS, YARN, Map-Reduce
Was sind Vor- und Nachteile von Hadoop?
Vorteile:
- Verteile Speicherung (HDFS)
- Verteilte Verarbeitung (MapReduce)
- Open Source
- Grosses Ökosystem
Nachteile:
- Hohe Latenz bei Abfragen
- Machine Learning kaum möglich
Was ist HDFS?
HDFS ist ein Bestandteil vom Hadoop Framework. Seine Aufgabe ist es die Daten effizient zu verwalten und zu speichern. HDFS ist vor allem für grosse Files geeignet. Ein Vorteil von HDFS ist, dass es sehr fehlertolerant ist.
Was sind Vor- und Nachteile von HDFS?
Vorteile:
- Möglichkeit große Datenmengen in einem verteilten Cluster zu speichern. Das ist in den meisten Fällen deutlich günstiger als die Informationen auf einer einzigen Maschine abzuspeichern.
- Hohe Fehlertoleranz und dadurch hochverfügbare Systeme
- Open Source
Nachteile:
- Daten sind nicht vor Hackern geschützt
Was ist YARN (Yet Another Resource Negotiatior)?
- Ist das Hirn von Hadoop
- Schnittstelle zwischen Speichersystem und Verarbeitungsengine
- Dient zur Ausführung und Verarbeitung von in HDFS gespeicherten Daten
Was sind Vor- und Nachteile von YARN?
Vorteile:
- Bessere Ressourcennutzung
- Ausführung von Nicht-MapReduce-Anwendungen
Nachteile:
- YARN greifft auf lokale Datenspeicherungen zurück. Dadurch besteht die Gefahr von Datalakes.
Was ist MapReduce?
Map Reduce ist ein Verfahren, mit dem grosse strukturierte oder unstrukturieren Datenmengen mit hoher Geschwindigkeit verarbeitet werden können. Urspünglich wurde es von Google für die Indexierung von Websites entwickelt.
Wie funktioniert MapReduce?
Map stellt die Funktion dar, die Aufgaben an unterschiedliche Knoten zu verteilen. Dabei werden die Daten in einzelne Bestandteile zerlegt.
Wenn die Mapper ihre Aufgabe, die Daten in Einzelteile zu zerlegen, erfüllt haben, werden sie an die Reducer übertragen. Dieser Übertritt wird auch Shuffling genannt. Dabei werden alle Daten, die denselben Schlüssel haben, einem Reducer zugeordnet.
Sobald die Daten bei den Reducern ankommen, werden die Werte, die alle demselben Schlüssel zugehören, aggregiert und als gemeinsamer Output ausgegeben
Was sind Anwendungsgebiete von MapReduce?
- Yahoo verwendet MapReduce für den Index-Aufbau
- Viele E-Mail-Provider setzen MapReduce für die Spam-Erkennung ein
- Facebook nutzt MapReduce für Data Mining, Ad-Optimierung sowie die SpamErkennung
Was ist Hive?
- Erweiterung Hadoop um ein Data-Warehouse-System
- Eigene Sprache HiveQL (übersetzt SQL in MapReduce-Jobs)
- Drei Haupfunktionen: Daten zusammenfassen, abfragen und analysieren
Was sind Vor- und Nachteile von Hive?
Vorteile:
- Schreiben von Abfragen für MapReduce in der Hive Query Language (HQL), einer SQL ähnlichen Sprache.
- Geringe Einarbeitungszeit und Lernkosten für Entwickler.
- Hive unterstützt benutzerdefinierte Funktionen.
- Open Source
Nachteile:
- Hive ist nicht sehr effizient und realtiv hohe Latenz
- Hive's HQL Abfragesprache ist begrenzt.
Was ist Pig?
- Dient als Erweiterung für Hadoop. Damit können MapReduce einfacher als mit Java erstellt werden
- Eigene Sprache Pig (ermöglicht es, eine Reihe von Datentransformationen zu spezifizieren)
- Benutzerdefinierte Funktionen können erstellt werden
Wie funktioniert Pig?
Pig kann mit Daten auf dem lokalen Dateisystem sowie HDFS arbeiten. Unabhängig davon, können Pig Programme auf drei Arten ausgeführt werden:
Interactive Mode: In diesem Modus wird Pig in der Grunt-Shell ausgeführt. So können Pig Latin-Anweisungen und Befehle interaktiv in der Befehlszeile eingeben werden.
Batch Mode: In diesem Modus können wir eine Datei mit der Erweiterung .pig ausführen. Diese Dateien enthalten Pig Latin-Befehle.
Embedded Mode: In diesem Modus können eigene Funktionen definiert werden. Diese Funktionen können als UDF (User Defined Functions) bezeichnet werden. Diese Funktionen können mittels den Programmiersprachen Java, Python, JavaScript, Ruby oder Groovy erstellt werden
Was sind Vor- und Nachteile von Pig?
Vorteile:
- Auch für Non-Programmierer
- Open Source
- Effiziente und leichte Erstellung von MapReduce-Jobs
Nachteile:
- Keine erweitere Funktionen wie Spark
- Etwas veraltet bzw. nicht ausgereift
Was ist HBase?
- Erweitert Hadoop um ein Datenverwaltungssystem
- Spaltenorientierte Datenbank
- Zugriff auf Zeilen über Zeilenschlüssel (Row Key)
- Funktionen: Abfrage auf Daten, Daten speichern, Daten löschen
Was sind Vor- und Nachteile von HBase?
Vorteile:
- Echtzeitabfragen können jederzeit gemacht werden
- Es kann eine riesige Menge an Daten gespeichert werden und diese können schnell verarbeitet werden
- HBase ist ein Open-Source Projekt und horizontal skalierbar
- Es speichert nur echte Daten – man braucht keine NULL-Platzhalter, wie in anderen Datenbanken mit festem Schemata
Nachteile:
- Die SQL-Struktur wird nicht unterstützt
- Der Datenzugriff funktioniert nur über Zeilen- oder Spaltenschlüssel
Was sind Anwendungsgebiete von Spark?
- Bietet Auswahl an verschiedenen Machine-Learning-Algorithmen
- Bietet Möglichkeit für Deep Learning
Was sind die Merkmale von Daten?
- Es sind Informationen
- Stehen in digitaler Form zur Verfügung
- Können durch ein Organ oder Gerät (z. B. Laptop) ausgegeben werden
Wie werden Daten zu Big Data?
- Volume: Grosse Datenmengen
- Variety: Vielfalt von Dateistrukturen (strukturiert, semi-strukturiert und unstrukturiert)
- Velocity: Daten werden mit erhöhter Geschwindigkeit produziert und verarbeitet
- Veracity: Unsicherheit der Datenqualität. Daten müssen daher nachbearbeitet werden
- Value: Business Value, welcher dank grossen Datenmengen & Machine Learning erreicht werden kann
Welche Methoden der Datenanalyse gibt es?
Descriptive Analytics:
- Daten aus der Vergangenheit
- Erkennung was passiert ist (also was falsch und was richtig war), aber nicht wieso.
- Deshalb wird die deskriptive Datenanalyse meist mit anderen Analysemethoden kombiniert, um ein umfassendes, aussagekräftiges Ergebnis zu erlangen.
Diagonstic Analytics:
- Daten aus der Vergangenheit in Kombination mit anderen Daten
- Zusammenhände, Ursachen und Wechselwirkungen erkennen
Predictive Analytics:
- Daten aus bereits durchgeführen deskriptiver oder diagnostischer Analysen
- Zukunftvorhersagen anhand komplexer Technologien machen
- Je besser die Daten sind, desto besser ist die Vorhersage
Prescriptive Analytics:
- Analyse, wie sich verschiedene Vorgehensweisen auf ein Ergebnis auswirken
Was ist eine Lambda-Architektur?
Ist schneller als Batch-Verarbeitung.
Batch Layer - Datenvorberechnung
Der Batch Layer verfügt über ein redundantes, verteiltes Verarbeitungssystem, in dem sehr große Datenmengen gleichzeitig verarbeitet und berechnet werden. Mit zunehmender Datenmenge erhöht sich auch die Laufzeit der Datenverarbeitung und kann mitunter mehrere Stunden umfassen. Bei der Berechnung wird auf Genauigkeit und Vollständigkeit geachtet.
Speed Layer - Lückenschließer
Im Speed Layer werden Echtzeit Ansichten der neuesten Daten berechnet und für externe Systeme zur Verfügung gestellt. Die Genauigkeit und Vollständigkeit spielt eine nachrangige Rolle. Ziel ist es die Latenzzeit des Batch Layers auszugleichen und eine vorläufige Datensicht bereitzustellen. Sind die Berechnungen im Batch Layer abgeschlossen, werden diese unmittelbar in den Speed Layer integriert.
Serving Layer - Datenlieferant
Die Ergebnisse des Batch und Speed Layers werden im Serving Layer gespeichert. Der Serving Layer ermöglicht die Bedienung von Ad-hoc Anfragen durch vorberechnete Datensichten oder aus dem vorgelagerten Verarbeitungsprozess.
Was sind Vor- und Nachteile der Lambda-Architektur?
Vorteile:
- Man kann durch den Speed Layer Daten in Echtzeit bekommen
Nachteile:
- Man hat zwei Systeme Parallel (Batch und Speed)
Was ist Data Mining?
- Es geht um die Erkennung von Muster oder Trends in grossen Datenmengen
- Wird mithilfe von Methoden aus der Informatik und der Statistik sowie Verfahren der künstlichen Intelligenz und des Maschinellen Lernens durchgeführt
- Es geht nicht um die Sammlung von Daten
Was ist CRISP-DM?
- Ein einheitlicher Data Mining Prozessablauf für Unternehmen bereitzustellen
- Ergebnisse des Data Minings sollen durch das CRISP-DM-Modell schneller und präziser zur Verfügung gestellt werden