Set of flashcards BUIBID (Page 1 of 2)

Flashcards	79
Language	Deutsch
Category	Technology
Level	University
Created / Updated	13.03.2022 / 18.06.2022
Weblink	https://card2brain.ch/cards/20220313_buibid
Embed	<iframe src="https://card2brain.ch/box/20220313_buibid/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was ist ein Data Warehouse?

Eine themenbezogene, konsolidierte und dauerhaft gespeicherte Ansammlung von Daten. Die Speicherung erfolgt strukturiert in denormalisierten relationalen Datenbanken.
Dient der abteilungsübergreifenden Auswertung von Informationen und unterstützt den
Entscheidungsprozess in einem Unternehmen.
Das Data Warehouse-System wird von operativen Systemen mit Informationen befüllt, die in der Data Staging
Area konsolidiert werden.
Mittels ETL-Prozesse werden die Informationen bereinigt, konsolidiert und aggregiert
in ein Data Warehouse überführt.

Was ist das Ziel von einem Data Warehouse?

Trennung operativer und analytischer Datenbanken: Vermeidung, dass Abfragen auf die Datenbank die Performance des operativen Systems beeinflussen.
Zentrale Datenhaltung
Integration verschiedener Datenquellen
Historisierung der Daten

Was ist Hadoop?

Hadoop kümmert sich um die Verarbeitung von Big Data
Basiet auf Map-Reduce Algorithmus von Google
Open-Source Software
4 Bestandteile: Hadoop Common, HDFS, YARN, Map-Reduce

Wofür wird Hadoop eingesetzt?

Was sind Vor- und Nachteile von Hadoop?

Vorteile:

Verteile Speicherung (HDFS)
Verteilte Verarbeitung (MapReduce)
Open Source
Grosses Ökosystem

Nachteile:

Hohe Latenz bei Abfragen
Machine Learning kaum möglich

Was ist HDFS?

HDFS ist ein Bestandteil vom Hadoop Framework. Seine Aufgabe ist es die Daten effizient zu verwalten und zu speichern. HDFS ist vor allem für grosse Files geeignet. Ein Vorteil von HDFS ist, dass es sehr fehlertolerant ist.

Was sind Vor- und Nachteile von HDFS?

Vorteile:

Möglichkeit große Datenmengen in einem verteilten Cluster zu speichern. Das ist in den meisten Fällen deutlich günstiger als die Informationen auf einer einzigen Maschine abzuspeichern.
Hohe Fehlertoleranz und dadurch hochverfügbare Systeme
Open Source

Nachteile:

Daten sind nicht vor Hackern geschützt

Was ist YARN (Yet Another Resource Negotiatior)?

Ist das Hirn von Hadoop
Schnittstelle zwischen Speichersystem und Verarbeitungsengine
Dient zur Ausführung und Verarbeitung von in HDFS gespeicherten Daten

Wie sieht die Architektur von YARN aus?

Was sind Anwendungsgebiete von YARN?

Was sind Vor- und Nachteile von YARN?

Vorteile:

Bessere Ressourcennutzung
Ausführung von Nicht-MapReduce-Anwendungen

Nachteile:

YARN greifft auf lokale Datenspeicherungen zurück. Dadurch besteht die Gefahr von Datalakes.

Was ist MapReduce?

Map Reduce ist ein Verfahren, mit dem grosse strukturierte oder unstrukturieren Datenmengen mit hoher Geschwindigkeit verarbeitet werden können. Urspünglich wurde es von Google für die Indexierung von Websites entwickelt.

Wie funktioniert MapReduce?

Map stellt die Funktion dar, die Aufgaben an unterschiedliche Knoten zu verteilen. Dabei werden die Daten in einzelne Bestandteile zerlegt.

Wenn die Mapper ihre Aufgabe, die Daten in Einzelteile zu zerlegen, erfüllt haben, werden sie an die Reducer übertragen. Dieser Übertritt wird auch Shuffling genannt. Dabei werden alle Daten, die denselben Schlüssel haben, einem Reducer zugeordnet.

Sobald die Daten bei den Reducern ankommen, werden die Werte, die alle demselben Schlüssel zugehören, aggregiert und als gemeinsamer Output ausgegeben

Was sind Vor- und Nachteile von MapReduce?

Was sind Anwendungsgebiete von MapReduce?

- Yahoo verwendet MapReduce für den Index-Aufbau
- Viele E-Mail-Provider setzen MapReduce für die Spam-Erkennung ein
- Facebook nutzt MapReduce für Data Mining, Ad-Optimierung sowie die SpamErkennung

Was ist Hive?

Erweiterung Hadoop um ein Data-Warehouse-System
Eigene Sprache HiveQL (übersetzt SQL in MapReduce-Jobs)
Drei Haupfunktionen: Daten zusammenfassen, abfragen und analysieren

Wie funktioniert Hive?

Was sind Vor- und Nachteile von Hive?

Vorteile:

Schreiben von Abfragen für MapReduce in der Hive Query Language (HQL), einer SQL ähnlichen Sprache.
Geringe Einarbeitungszeit und Lernkosten für Entwickler.
Hive unterstützt benutzerdefinierte Funktionen.
Open Source

Nachteile:

Hive ist nicht sehr effizient und realtiv hohe Latenz
Hive's HQL Abfragesprache ist begrenzt.

Was ist Pig?

Dient als Erweiterung für Hadoop. Damit können MapReduce einfacher als mit Java erstellt werden
Eigene Sprache Pig (ermöglicht es, eine Reihe von Datentransformationen zu spezifizieren)
Benutzerdefinierte Funktionen können erstellt werden

Wie funktioniert Pig?

Pig kann mit Daten auf dem lokalen Dateisystem sowie HDFS arbeiten. Unabhängig davon, können Pig Programme auf drei Arten ausgeführt werden:

Interactive Mode: In diesem Modus wird Pig in der Grunt-Shell ausgeführt. So können Pig Latin-Anweisungen und Befehle interaktiv in der Befehlszeile eingeben werden.

Batch Mode: In diesem Modus können wir eine Datei mit der Erweiterung .pig ausführen. Diese Dateien enthalten Pig Latin-Befehle.

Embedded Mode: In diesem Modus können eigene Funktionen definiert werden. Diese Funktionen können als UDF (User Defined Functions) bezeichnet werden. Diese Funktionen können mittels den Programmiersprachen Java, Python, JavaScript, Ruby oder Groovy erstellt werden

Was Sind Anwendungsgebiete für Pig?

Was sind Vor- und Nachteile von Pig?

Vorteile:

Auch für Non-Programmierer
Open Source
Effiziente und leichte Erstellung von MapReduce-Jobs

Nachteile:

Keine erweitere Funktionen wie Spark
Etwas veraltet bzw. nicht ausgereift

Was ist HBase?

Erweitert Hadoop um ein Datenverwaltungssystem
Spaltenorientierte Datenbank
Zugriff auf Zeilen über Zeilenschlüssel (Row Key)
Funktionen: Abfrage auf Daten, Daten speichern, Daten löschen

Was sind Vor- und Nachteile von HBase?

Vorteile:

Echtzeitabfragen können jederzeit gemacht werden
Es kann eine riesige Menge an Daten gespeichert werden und diese können schnell verarbeitet werden
HBase ist ein Open-Source Projekt und horizontal skalierbar
Es speichert nur echte Daten – man braucht keine NULL-Platzhalter, wie in anderen Datenbanken mit festem Schemata

Nachteile:

Die SQL-Struktur wird nicht unterstützt
Der Datenzugriff funktioniert nur über Zeilen- oder Spaltenschlüssel

Was sind Anwedungsgebiete von HBase?

Was ist Spark?

Apache Spark ist das einzige Verarbeitungsframework, das Daten und künstliche Intelligenz kombiniert.

Was sind die Komponenten von Spark?

Was sind Anwendungsgebiete von Spark?

Bietet Auswahl an verschiedenen Machine-Learning-Algorithmen
Bietet Möglichkeit für Deep Learning

Was sind Vor- und Nachteile von Spark?

Was sind die Merkmale von Daten?

Es sind Informationen
Stehen in digitaler Form zur Verfügung
Können durch ein Organ oder Gerät (z. B. Laptop) ausgegeben werden

Wie werden Daten zu Big Data?

Volume: Grosse Datenmengen
Variety: Vielfalt von Dateistrukturen (strukturiert, semi-strukturiert und unstrukturiert)
Velocity: Daten werden mit erhöhter Geschwindigkeit produziert und verarbeitet
Veracity: Unsicherheit der Datenqualität. Daten müssen daher nachbearbeitet werden
Value: Business Value, welcher dank grossen Datenmengen & Machine Learning erreicht werden kann

Welche Methoden der Datenanalyse gibt es?

Descriptive Analytics:

Daten aus der Vergangenheit
Erkennung was passiert ist (also was falsch und was richtig war), aber nicht wieso.
Deshalb wird die deskriptive Datenanalyse meist mit anderen Analysemethoden kombiniert, um ein umfassendes, aussagekräftiges Ergebnis zu erlangen.

Diagonstic Analytics:

Daten aus der Vergangenheit in Kombination mit anderen Daten
Zusammenhände, Ursachen und Wechselwirkungen erkennen

Predictive Analytics:

Daten aus bereits durchgeführen deskriptiver oder diagnostischer Analysen
Zukunftvorhersagen anhand komplexer Technologien machen
Je besser die Daten sind, desto besser ist die Vorhersage

Prescriptive Analytics:

Analyse, wie sich verschiedene Vorgehensweisen auf ein Ergebnis auswirken

Was ist eine Batch-Verarbeitung?

Daten werden extrahiert, transformiert und geladen
Dieser Prozess wird mit neuen Daten über Nacht durchgeführt
Falls Aktualität wichtig ist, kann dieser Prozess auch jede halbe Stunden durchgeführt werden
Für noch schnellere Aktualität braucht es die Lambda-Architektur

Was ist eine Lambda-Architektur?

Ist schneller als Batch-Verarbeitung.

Batch Layer - Datenvorberechnung
Der Batch Layer verfügt über ein redundantes, verteiltes Verarbeitungssystem, in dem sehr große Datenmengen gleichzeitig verarbeitet und berechnet werden. Mit zunehmender Datenmenge erhöht sich auch die Laufzeit der Datenverarbeitung und kann mitunter mehrere Stunden umfassen. Bei der Berechnung wird auf Genauigkeit und Vollständigkeit geachtet.

Speed Layer - Lückenschließer
Im Speed Layer werden Echtzeit Ansichten der neuesten Daten berechnet und für externe Systeme zur Verfügung gestellt. Die Genauigkeit und Vollständigkeit spielt eine nachrangige Rolle. Ziel ist es die Latenzzeit des Batch Layers auszugleichen und eine vorläufige Datensicht bereitzustellen. Sind die Berechnungen im Batch Layer abgeschlossen, werden diese unmittelbar in den Speed Layer integriert.

Serving Layer - Datenlieferant
Die Ergebnisse des Batch und Speed Layers werden im Serving Layer gespeichert. Der Serving Layer ermöglicht die Bedienung von Ad-hoc Anfragen durch vorberechnete Datensichten oder aus dem vorgelagerten Verarbeitungsprozess.

Was sind Vor- und Nachteile der Lambda-Architektur?

Vorteile:

Man kann durch den Speed Layer Daten in Echtzeit bekommen

Nachteile:

Man hat zwei Systeme Parallel (Batch und Speed)

Was ist Data Mining?

Es geht um die Erkennung von Muster oder Trends in grossen Datenmengen
Wird mithilfe von Methoden aus der Informatik und der Statistik sowie Verfahren der künstlichen Intelligenz und des Maschinellen Lernens durchgeführt
Es geht nicht um die Sammlung von Daten

Welche Aufgaben kann Data Mining übernehmen?

Was sind mögliche Verfahren und Algorithmen, welche bei Data Mining verwendet werden können?

Was ist CRISP-DM?

Ein einheitlicher Data Mining Prozessablauf für Unternehmen bereitzustellen
Ergebnisse des Data Minings sollen durch das CRISP-DM-Modell schneller und präziser zur Verfügung gestellt werden

Welche sechs Phasen hat CRISP-DM?

BUIBID

Create or copy sets of flashcards

Create or copy sets of flashcards

Log in to see all the cards.

SWITCHaai

Office 365

Edulog

Apple ID

Google