Premium Partner

BUIBID

BUIBID

BUIBID


Set of flashcards Details

Flashcards 79
Language Deutsch
Category Technology
Level University
Created / Updated 13.03.2022 / 18.06.2022
Licencing Not defined
Weblink
https://card2brain.ch/box/20220313_buibid
Embed
<iframe src="https://card2brain.ch/box/20220313_buibid/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Was ist ein Data Warehouse?

  • Eine themenbezogene, konsolidierte und dauerhaft gespeicherte Ansammlung von Daten. Die Speicherung erfolgt strukturiert in denormalisierten relationalen Datenbanken.
  • Dient der abteilungsübergreifenden Auswertung von Informationen und unterstützt den 
    Entscheidungsprozess
    in einem Unternehmen.
  • Das Data Warehouse-System wird von operativen Systemen mit Informationen befüllt, die in der Data Staging
    Area
    konsolidiert werden. 
  • Mittels ETL-Prozesse werden die Informationen bereinigt, konsolidiert und aggregiert 
    in ein Data Warehouse überführt. 

Was ist das Ziel von einem Data Warehouse?

  • Trennung operativer und analytischer Datenbanken: Vermeidung, dass Abfragen auf die Datenbank die Performance des operativen Systems beeinflussen.
  • Zentrale Datenhaltung
  • Integration verschiedener Datenquellen
  • Historisierung der Daten

Was ist Hadoop?

  • Hadoop kümmert sich um die Verarbeitung von Big Data
  • Basiet auf Map-Reduce Algorithmus von Google
  • Open-Source Software
  • 4 Bestandteile: Hadoop Common, HDFS, YARN, Map-Reduce

Wofür wird Hadoop eingesetzt?

Was sind Vor- und Nachteile von Hadoop?

Vorteile:

  • Verteile Speicherung (HDFS)
  • Verteilte Verarbeitung (MapReduce)
  • Open Source
  • Grosses Ökosystem

 

Nachteile:

  • Hohe Latenz bei Abfragen
  • Machine Learning kaum möglich

 

 

Was ist HDFS?

HDFS ist ein Bestandteil vom Hadoop Framework. Seine Aufgabe ist es die Daten effizient zu verwalten und zu speichern. HDFS ist vor allem für grosse Files geeignet. Ein Vorteil von HDFS ist, dass es sehr fehlertolerant ist.

Was sind Vor- und Nachteile von HDFS?

Vorteile:

  • Möglichkeit große Datenmengen in einem verteilten Cluster zu speichern. Das ist in den meisten Fällen deutlich günstiger als die Informationen auf einer einzigen Maschine abzuspeichern.
  • Hohe Fehlertoleranz und dadurch hochverfügbare Systeme
  • Open Source

 

Nachteile:

  • Daten sind nicht vor Hackern geschützt

Was ist YARN (Yet Another Resource Negotiatior)?

  • Ist das Hirn von Hadoop
  • Schnittstelle zwischen Speichersystem und Verarbeitungsengine
  • Dient zur Ausführung und Verarbeitung von in HDFS gespeicherten Daten