BUIBID
BUIBID
BUIBID
79
0.0 (0)
Set of flashcards Details
Flashcards | 79 |
---|---|
Language | Deutsch |
Category | Technology |
Level | University |
Created / Updated | 13.03.2022 / 18.06.2022 |
Licencing | Not defined |
Weblink |
https://card2brain.ch/box/20220313_buibid
|
Embed |
<iframe src="https://card2brain.ch/box/20220313_buibid/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Was ist ein Data Warehouse?
- Eine themenbezogene, konsolidierte und dauerhaft gespeicherte Ansammlung von Daten. Die Speicherung erfolgt strukturiert in denormalisierten relationalen Datenbanken.
- Dient der abteilungsübergreifenden Auswertung von Informationen und unterstützt den
Entscheidungsprozess in einem Unternehmen. - Das Data Warehouse-System wird von operativen Systemen mit Informationen befüllt, die in der Data Staging
Area konsolidiert werden. - Mittels ETL-Prozesse werden die Informationen bereinigt, konsolidiert und aggregiert
in ein Data Warehouse überführt.
Was ist das Ziel von einem Data Warehouse?
- Trennung operativer und analytischer Datenbanken: Vermeidung, dass Abfragen auf die Datenbank die Performance des operativen Systems beeinflussen.
- Zentrale Datenhaltung
- Integration verschiedener Datenquellen
- Historisierung der Daten
Was ist Hadoop?
- Hadoop kümmert sich um die Verarbeitung von Big Data
- Basiet auf Map-Reduce Algorithmus von Google
- Open-Source Software
- 4 Bestandteile: Hadoop Common, HDFS, YARN, Map-Reduce
Was sind Vor- und Nachteile von Hadoop?
Vorteile:
- Verteile Speicherung (HDFS)
- Verteilte Verarbeitung (MapReduce)
- Open Source
- Grosses Ökosystem
Nachteile:
- Hohe Latenz bei Abfragen
- Machine Learning kaum möglich
Was ist HDFS?
HDFS ist ein Bestandteil vom Hadoop Framework. Seine Aufgabe ist es die Daten effizient zu verwalten und zu speichern. HDFS ist vor allem für grosse Files geeignet. Ein Vorteil von HDFS ist, dass es sehr fehlertolerant ist.
Was sind Vor- und Nachteile von HDFS?
Vorteile:
- Möglichkeit große Datenmengen in einem verteilten Cluster zu speichern. Das ist in den meisten Fällen deutlich günstiger als die Informationen auf einer einzigen Maschine abzuspeichern.
- Hohe Fehlertoleranz und dadurch hochverfügbare Systeme
- Open Source
Nachteile:
- Daten sind nicht vor Hackern geschützt
Was ist YARN (Yet Another Resource Negotiatior)?
- Ist das Hirn von Hadoop
- Schnittstelle zwischen Speichersystem und Verarbeitungsengine
- Dient zur Ausführung und Verarbeitung von in HDFS gespeicherten Daten