Business Intelligence
Einführung in Data Warehousing und Data Mining
Einführung in Data Warehousing und Data Mining
Set of flashcards Details
Flashcards | 100 |
---|---|
Language | Deutsch |
Category | Computer Science |
Level | University |
Created / Updated | 29.06.2015 / 11.01.2024 |
Weblink |
https://card2brain.ch/box/business_intelligence4
|
Embed |
<iframe src="https://card2brain.ch/box/business_intelligence4/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Information als Erfolgsfaktor für das Unternehmen
- Information als 1. Produktionsfaktor
- Datenchaos, Verschwendung informationeller Ressourcen
Stand 2014: 5 % der verfügbaren Daten werden für die Analyse genutzt. [isreport 8/2014, S. 12]
Datenanalyse beschränkt sich weitgehend auf strukturierte Daten, aber ca. 80 Prozent der Daten sind nicht strukturiert.
Unternehmen beziffern den Wert, den ihre Daten am Gesamtwert des Unternehmens ausmachen, mit rund 37 Prozent. [PWC, 2004]
3. Erfordernis der strikten Kundenorientierung
Begriffserläuterung
Daten
"Data are the basic building blocks of the information economy and of knowledgebased business. ..They are the 'unorganized sludge' of the information age." [Davis,S./Botkin, J.]
Daten sind einzelne objektive Zahlen, Quantitäten, Variablen oder Fakten zu Ereignissen oder Vorgängen und geben zunächst keine Auskunft über die eigene Bedeutung oder Belanglosigkeit. Sie sind allein Rohmaterial für eine spezifische Entscheidungsfindung.
DATABILITY = Leitthema der CeBIT 2014: Die Fähigkeit, große Datenmengen in hoher Geschwindigkeit verantwortungsvoll und nachhaltig zu nutzen.
d!conomy = Leitthema der CeBIT 2015: allgegenwärtige Datendigitalisierung
Begriffserläuterung
Informationen
Aus Daten werden erst dann Informationen, wenn sie einerseits in einen Problemzusammenhang gestellt werden und andererseits zur Erreichung eines bestimmten Zieles dienen.
„Schließen Sie das Potenzial von sozialen Netzen auf! “ [Drucker, P.]
Mit Informationen erlangt man (objektive) Kenntnisse über Sachverhalte, um entscheiden zu können, wie ein Ziel am günstigsten erreicht werden kann.
Dabei sind Informationen nicht an Personen gebunden und lassen sich heute mit Hilfe informationstechnischer Infrastrukturen weltweit schnell und kostengünstig verbreiten.
Eine Information bedarf aber aus kommunikationstheoretischer Sicht immer eines Senders und Empfängers.
Und genau genommen ist es der Empfänger, der darüber entscheidet, ob ihn die Information auch wirklich informiert. Denn ob die empfangenen Daten für den Empfänger eine wahre Information darstellen, zeigt sich erst in ihrer Bedeutung bzw. Belanglosigkeit und nicht zuletzt in ihrem Zweck für den Empfänger.
Begriffserläuterung
Content
Content = webbasierte Daten.
Mit Hilfe eines Content Manegement Systems (CMS) ist es möglich, unterschiedlichen Content (Text, Bilder, Audio, Video etc.) zu sammeln, zu implementieren, darzustellen und zu verteilen. Zu den traditionellen CMS kommen heute verstärkt einfache Systeme auf Wiki-Basis.
Begriffserläuterung
Wissen
Sir Francis Bacon (1561 - 1626): "Knowledge is Power"
Um aus Informationen Wissen zu generieren, ist die Einbindung der Informationen in einen Erfahrungskontext eine der erforderlichen Voraussetzungen.
Informationen müssen kombiniert und mit persönlichen Motivationen und Intentionen verknüpft werden.
Zudem ist Wissen handlungsorientiert, es ermöglicht dem Wissensträger Handlungsvermögen aufzubauen.
Wissen kann demnach als zweckorientierte Vernetzung von Informationen verstanden werden.
Folglich hat Wissen nur in einem speziellen Kontext einen Wert.
Zugleich kann Wissen aufgrund der Kontextgebundenheit auch nur ausschnittsweise als Information abgebildet werden.
Des Weiteren unterliegt Wissen einer ständigen Mutation, denn durch neu erlangte Informationen wird das Wissen eines Menschen fortwährend erweitert verändert und umstrukturiert.
Business Intelligence
Hans Peter Luhn hat zuerst den Begriff Business Intelligence verwendet. Er hat Intelligenz als "die Fähigkeit" definiert "welche Wechselbeziehungen von präsentierten Tatsachen auf solche Art und Weise zu begreifen, um Handlungen zu einer gewünschten Absicht zu führen.
Howerd Dresner (später ein Analytiker von Gartner Group) hat BI als ein Überbegriff vorgeschlagen, um "Konzepte und Methoden zu beschreiben, das Geschäftsentscheidungsbilden zu verbessern, indem er tatsachenbasierte Unterstützungssysteme verwendet hat.
Heute, in Zusammenhang mit Gartner Group: " Geschäftsintelligenz ist der Prozess von sich verwandelnden Daten in Informationen und dadurch die gewinnung von Kenntnissen."
Business Intelligence
Data Warehousing Data Mining
(OLAP)
data knowledge
oriented oriented
CPM
Corporate Performance Management: Methoden, Kennzahlen, Prozesse und Systeme, um die Leistung des Unternehmens zu messen und zu steuern
Tom de Marco: „Was man nicht messen kann, kann man nicht kontrollieren.“
Aktuelle BI-Trends
Business Intelligence wird gegenwärtig von 4 Megatrends bestimmt:
Big Data,
Social Computing,
Cloud Computing und
Mobile Computing.
Big Data
Seit 1975 finden regelmäßig VLDB-Konferenzen statt, die sich den „sehr großen“ (very large) Datenbanken widmen.
Als Konsequenz der kontinuierlichen Messwerterfassung durch Sensoren im Internet of Things (IoT), der explodierende Datengenerierung in sozialen Netzwerken und der App-Überflutung in Smartphones wird das Auftreten großer Datenmengen zur Massenerscheinung.
Laut Gartner soll das IoT bis 2020 26 Milliarden physische Komponenten umfassen.
Das Massendaten-Phänomen, das gerade erst begonnen hat und zweifellos eine digitale Revolution bewirkt, wird als Big Data bezeichnet.
Zum Beispiel:
• Im CERN wird in jeder Sekunde 1 Petabyte Daten produziert. Das ist in jeder Stunde ein größeres Datenvolumen als in der gesamten Menschheitsgeschichte bis zum Ende des 20. Jh.
V4-Modell mit vier Schlüsseleigenschaften
Volume
Big Data erfordert ein effizientes Skalieren riesiger Datenmengen. Oracle gibt das folgende Beispiel an: Ein Düsentriebwerk generiert 10 TB Daten in 30 Minuten. Mit mehr als 25.000 Flügen pro Tag entstehen Petabyte-Datensilos, die von der existierenden Data-Warehouse-Technologie nicht mehr beherrscht werden können.
Velocity
Big Data erfordert trotz der massiven Datenströme, wie sie beim kontinuierlichen Messen in technischen Systemen oder in sozialen Netzwerken entstehen, analytische Auswertungen mit Echtzeittendenz.
Variety
Big Data erfordert die Beherrschung einer Vielzahl von Datenquellen, Speichertechnologien, Datentypen und –schemata auch bei sich ändernden Prozessbedingungen.
Value
Big Data erfordert im Interesse von Kosteneffizienz die Differenzierung von einzuleitenden Analysemaßnahmen nach deren ökonomischem Wert.
Big Data ist der Auslöser für einen Paradigmenwechsel der existierenden Data-Warehouse-Technologie. Bedingt durch die exponentiell steigenden Datenmengen muss es zukünftig gelingen,
die Verarbeitungsperformance signifikant zu erhöhen,
auch nichtstrukturierte Daten entsprechend dem heutigen Standard für die Analyse strukturierter Daten auszuwerten.
Big Data Strategie nach dem FORCE-Modell von Davenport (2014):
Fact-based, also tatsachenbezogene Entscheidungsfindung
Organisation (Governance) von Analysten und Ressourcen
Review, also kontinuierliche Überprüfung betriebswirtschaftlicher Prämissen und Modelle
Culture, also Stärkung der Kultur analytischer Entscheidungen und Lernstrategien
Embedding, also Einbettung der Datenanalyse in wichtige Geschäftsprozesse
HANA-Datenbanken (SAP)
High-Performance Analytic Appliance, für deren Entwicklung vor allem das Potsdamer Hasso-Plattner-Institut verantwortlich zeichnet, einen entscheidenden Beitrag zur Performanceverbesserung für Big Data.
HANA kombiniert die In-Memory-Technologie, bei der die zu verarbeitende Datenbank direkt in den Arbeitsspeicher geladen wird, mit dem spaltenorientierten Datenbankdesign, das als eine Variante der aussichtsreichen NoSQL-Datenbanken angesehen werden kann.
Hadoop-Technologie
- Um nichtstrukturierte Daten in eine auswertbare Form zu bringen
- Hadoop gehört wie Linux zur Open-Source-Familie
- Hadoop ist ein in Java entwickeltes Framework, das im Kern aus dem MapReduce-Algorithmus und dem Hadoop Distributed File System (HDFS) besteht.
- Es lassen sich damit sehr rechenintensive Prozesse auf mehrere Servercluster verteilen und große Volumen an Daten verarbeiten.
- Der MapReduce-Algoritmus splittet dabei die Prozesse in unabhängige Teilprozesse und führt diese parallel und verteilt aus (Map-Phase). In einem zweiten Schritt werden diese Daten wieder zusammengeführt (Reduce-Phase).
Den Ansatz beschreibt Oracle wie folgt: „Break problem up into small sub-problems“. Damit wird an die aus den 1980er Jahren bekannte Technologie des Massive Parallel Processing angeknüpft.
Mit Hilfe von HDFS wird es möglich, komplexe Verarbeitungsprozesse zur Transformation nichtstrukturierter Daten mit extrem großen Datenmengen in einem Computercluster auf Knotenrechner zu verteilen;
Zum Hadoop-Framework gehören u.a. HBase (spaltenorientierte Datenbank) und Hive (Erweiterung von Hadoop um Data-Warehouse-Funktionalität, insbes. durch SQL-ähnliche Abfragesprache)
Social Computing
- im Juli 2011 Einführung MicroStrategydie „Gateway for Facebook“
- überträgt Facebook-Daten in eine relationale Datenbank und macht sie mit konventionellen BI-Methoden wie OLAP (Online Analytical Processing) für CRM, Marketing, Vertrieb und mobile Anwendungen multidimensional auswertbar
- einerseits die Möglichkeit, Facebook-Daten durch Daten aus anderen Quellen anzureichern und andererseits den bidirektionalen Datenfluss, um bei Bedarf Unternehmensdaten in die Facebook-Struktur einfließen zu lassen.
- Der Gateway-Anwender wird von MicroStrategy zusätzlich dadurch unterstützt, dass die notwendigen komplexen IT-Prozess cloudbasiert ablaufen; auf die MicroStrategy-Cloud wird im Folgenden eingegangen.
Cloud Computing
- August 2006 Testversion von Amazon‘s Elastic Compute Cloud (EC2) anlief
- Möglichkeit verstanden, dass Programme und Daten nicht mehr auf lokalen Rechnern installiert werden müssen, sondern aus einer „Wolke“ von im Internet verteilten Servern dem Nutzer on Demand – also bei Bedarf – verfügbar gemacht werden.
Vor allem fünf Nutzenelemente begründen den Erfolg des Cloud Computing:
1. Kosteneinsparungen insbesondere durch das On-Demand-Modell,
2. Skalierung der Rechenleistung in Echtzeit,
3. automatisches Updating für den Cloud-Kunden,
4. zeit- und ortsunabhängige Verfügbarkeit,
5. erhöhte Sicherheit, auch im Katastrophenfall.
Vorteile von Cloud Computing für ihre BI-Kunden
Diese BI-Cloud brilliert durch ihre Best-of-Breed-Lösung, die im Eigenbetrieb bei einem Kunden im Normalfalle nicht bezahlbar wäre:
• ETL durch Informatica,
• ParAccel Datenbank,
• Data Warehouse von IBM Netezza,
• MicroStrategy’s Intelligence Server für OLAP.
MicroStrategy bietet unter „Cloud Personal“ via www.microstrategy.de einen kostenfreien Zugang zu seiner Cloud-Lösung an.
Mobile Computing
Nach Gregory McGrath, Information Builders führt Mobile Intelligence für die Nutzer zu folgenden Vorteilen:
• verbesserte Agilität, um Marktveränderungen und Kundeninteressen zu entsprechen,
• erhöhte Mitarbeiterproduktivität durch ungehinderten Zugriff auf relevante Daten,
• erweiterte Möglichkeiten für die interne und externe Zusammenarbeit von Unternehmen,
• steigende Kundenzufriedenheit.
Mobile Business
ist die „Anbahnung sowie die Unterstützung, Abwicklung und Aufrechterhaltung von Leistungsaustauschprozessen zwischen ökonomischen Partnern mittels elektronischer Netze und mobiler Zugangsgeräte.“ [Wirtz]
NoSQL-Datenbanken
NoSQL-Datenbanken benötigen keine festgelegten Tabellenschemata. Sie versuchen, Joins zu vermeiden. Sie sind auf eine verteilte und horizontale Skalierbarkeit ausgerichtet und ermöglichen eine einfache Datenreplikation.
Datenqualität
Datenqualität bezeichnet die Qualität, also Bedeutsamkeit, Relevanz und Korrektheit von Daten. Sie beschreibt, wie gut Daten geeignet sind, die Realität zu beschreiben, das heißt, inwieweit sie ein Modell tatsächlicher Situationen bilden. Insbesondere besagt sie, wie verlässlich Daten sind und inwieweit man sie als Grundlage für eine Planung des eigenen Handelns verwenden kann. [nach Wikipedia]
Tupel
Datenobjekte in R sind Tupel. Jedes Tupel besteht aus gleicher Anzahl von Attributen A1 ... An. R ist eine Menge von Tupeln. (Tupel ≅ Zeile in Tabelle)
Attribute
Attribute sind durch ihre Namen und Domänen (Wertebereiche) definiert. Es sind zu unterscheiden: beschreibende, Schlüssel- und Fremdschlüssel-Attribute.
volle funktionale Abhängigkeit
Die volle funktionale Abhängigkeit der Attribute ist das zentrale Ordnungsprinzip der Relation
- Das Attribut bzw. die Attributkombination Aj ist funktional abhängig vom Attribut bzw. von der Attributkombination Ai derselben Relation R, wenn zu einem Wert von Ai höchstens ein Wert von Aj möglich ist. R.Ai R.Aj [nach ZEHNDER]
- Die volle funktionale Abhängigkeit setzt die funktionale Abhängigkeit voraus und fordert die Eliminierung von Teilschlüssel- und transitiven Abhängigkeiten.
Identifikationsschlüssel
Ein Attribut oder eine Attributkombination muß jedes Tupel in R eindeutig identifizieren Identifikationsschlüssel (ID in R unterstreichen!). Jedes nicht zum ID gehörige Attribut ist von diesem voll funktional abhängig.
[nach SCHWARZE]
eindimensionale physische Abspeicherung einer Tabelle im Arbeitsspeicher und auf der Festplatte
a) zeilenorientiert (Standard)
b) spaltenorientiert
Spaltenorientierte Abspeicherung ist effizienter, wenn
• ein Aggregat über viele Zeilen einer Tabelle zu bilden ist, aber nur wenige Spalten betroffen sind:
SELECT SUM(Projektzeit) FROM perszeit,
• alle Daten einer Spalte zu verändern sind, z.B. Zeitreduzierung auf 97%:
UPDATE perszeit SET projektzeit = projektzeit * 0.97;
Zeilenorientierte Abspeicherung ist effizienter, wenn
• gleichzeitig viele Spalten einer tabelle benötigt werden,
• neue Zeilen eingefügt werden sollen.
Zeilenorientierte Abspeicherung hat Vorteile für OLTP, spaltenorientierte Abspeicherung ist geeignet für OLAP (Aggregatbildungen im Data-Warehouse-Kontext)
NoSQL-Datenbanken
• Begriff NoSQL (heute: not only SQL) erstmals 1998 (Carlo Strozzi)
• Stürmische Entwicklung seit 2000 mit Web 2.0, weil es notwendig wurde, immer größere Datenmengen zu verarbeiten (Big Data)
Wide Column Store / Column Families:
Sie speichern Datensätze mit potentiell sehr vielen dynamischen Spalten ab und bieten teilweise Super-Columns in Form von Sub-Listen an. Jedes Attribut wird in einer eigenen Tabelle hintereinander, also spaltenorientiert, gespeichert.
Daraus ergeben sich Vorteile für OLAP, Data Warehousing und Caching.
Häufig verwendete Ausgangsbasis: Google’s Big Table.
Darauf basieren sowohl HBase (Hadoop) als auch Cassandra (ursprünglich Facebook).
Zu beachten:
Deutsche Übersetzung häufig „spaltenorientierte Datenbanken, aber nicht identisch mit Spaltenorientierte Abspeicherung.
HBase
HBase ist als Teilprojekt von Apache Hadoop Open Source (Teil des Ökosystems von HADOOP). Es ist eine freie Implementierung von Google’s Big-Table-Infrastruktur. HBase ist spaltenorientiert und dient der verteilten Speicherung großer Mengen semistrukturierter Daten.
Cassandra
Cassandra wurde auf Basis von Big Table von Facebook entwickelt und 2008 freigegeben. Das System gilt als führendes verteiltes nichtrelationales DBMS.
Datenqualität ist, wenn Daten...
- zugänglich- verfügbar
- interpretierbar- syntaktisch & semantisch
- brauchbar- relevant & zielgerichtet- aktuell & nicht-flüchtig
- glaubwürdig- vollständig, konsistent & genau
sind.
Wichtig: Völlig neue, teilweise geringere Anforderungen an die Datenqualität durch Big Data durch neue Dimensionen im Datenvolumen (Fehler werden durch Menge kompensiert) und durch In-Memory-Computing.
Schlechte Datenqualität führt dazu, dass
• Datenqualitätsprobleme die US-Wirtschaft jährlich mehr als 600 Milliarden Dollar kosten (Die direkten Kosten infolge schlechter Datenqualität betragen 10 bis mehr als 20 Prozent des Umsatzes.),
• falsche Preisdaten in Handelsdatenbanken amerikanischen Kunden höhere Rech-nungsbeträge in Höhe von 2,5 Milliarden Dollar/Jahr abverlangen,
• typische Kundendatenbanken in den USA 15 bis 20 Prozent fehlerhafte Datenwerte enthalten,
• nach Meta Group 35 Prozent aller IT-Projekte an mangelnder Datenqualität scheitern. "GARBAGE IN – GARBAGE OUT"
Dimensionen der Datenqualität
Genauigkeit: Grad der Übereinstimmung mit einem Standard oder einem akzeptierten Wert
Gültigkeit: Grad der Erfüllung der Klassifizierungs- und Wertebedingungen
Integrität: Daten sind unversehrt.
Konsistenz: Daten sind in sich widerspruchsfrei.
Nichtredundanz (Atomarität): Datenwerte ohne doppeltes (redundantes) Vorkommen
Verfügbarkeit: Daten stehen bei akzeptablen Zugriffszeiten und unter Berücksichtigung der Zugriffsrechte rechtzeitig zur Verfügung.
Vollständigkeit: Menge der vorhandenen Daten im Vergleich zur Menge der benötigten Daten
Zeitgerechtheit: Aktualität der Daten entsprechend den Auswertungserfordernissen
Total Data Quality Management /Strategien
Das Ziel von "Garbage in – quality out" basiert auf der Durchdringung der genannten Dimensionen und bereitet dem seit 1990 am MIT (Massachusetts Institute of Technology) erfolgreich gestarteten Ansatz des Total Data Quality Management (TDQM) den Weg.
Empfohlene Doppelstrategie zur Erzielung einer hochwertigen Datenqualität:
- proaktive Sicherung der Datenqualität in einem weitgehend automatisierten Prozess
- kontinuierliche Verbesserung des Gesamtprozesses zur Erzielung optimaler Datenqualität
Proaktive Sicherung der Datenqualität
Bill Inmon, "Vater des Data Warehousing", sieht vor allem drei Ansatzpunkte für die proaktive Sicherung der Datenqualität:
• Datenerfassung: Data Profiling, Data Cleansing, Monitoring
• Datenintegration durch ETL,
• Data Warehouse / Metadatenmanagement.
Erzielung optimaler Datenqualität als kontinuierlicher Prozess
Die Sicherung der Datenqualität ist auf Dauer nur zu erreichen, wenn sie als kontinuierlicher Prozess auf jeweils verbessertem Niveau verstanden wird. Diese Auffassung ist die Lehre aus den japanischen KAIZEN-Erfahrungen, die als Plan-Do-Check-Act- (PDCA-) Zyklus prinzipiell dargestellt werden