Business Intelligence
Einführung in Data Warehousing und Data Mining
Einführung in Data Warehousing und Data Mining
Kartei Details
Karten | 100 |
---|---|
Sprache | Deutsch |
Kategorie | Informatik |
Stufe | Universität |
Erstellt / Aktualisiert | 29.06.2015 / 11.01.2024 |
Weblink |
https://card2brain.ch/box/business_intelligence4
|
Einbinden |
<iframe src="https://card2brain.ch/box/business_intelligence4/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>
|
Lernkarteien erstellen oder kopieren
Mit einem Upgrade kannst du unlimitiert Lernkarteien erstellen oder kopieren und viele Zusatzfunktionen mehr nutzen.
Melde dich an, um alle Karten zu sehen.
12 Evaluierungsregeln für OLAP-Tools (7-12)
7 Dynamische Ver-waltung dünnbesetzter Matrizen
Charakteristisch für mehrdimensionale Datenbanken sind sogenannte dünnbesetzte Matrizen ( = ungenutzter Speicherplatz). Unter Berücksichti-gung dieses Charakteristikums muss die Datenorganisation eines OLAP-Systems für eine effiziente und sinnvolle Speicherung der Daten sorgen.
8 Mehrbenutzer-fähigkeit
Durch OLAP-Systeme muss ein Mehrbenutzerbetrieb möglich sein, bei dem sowohl konkurrierender Datenzugriff
als auch wichtige Sicherheits- und Integritätsregeln unterstützt werden müssen.
9 Unbeschränkte kreuzdimensio-nale Operationen
Das OLAP-System muss dem Endnutzer die problemlose Ausführung be-stimmter Operationen (z.B. Berechnungen) innerhalb bzw. über einzelne Dimensionen hinweg ermöglichen, wobei zugrundeliegende Berechnungsvorschriften für den Nutzer transparent bleiben sollen.
10 Intuitive Daten-manipulation
OLAP-Systeme müssen eine intuitive Navigation und Manipulation in der Datenbasis unterstützen, indem dem Endnutzer flexible und benutzer-freundliche Oberflächen zur Verfügung gestellt werden.
11 Flexibles Be-richtswesen
Die Generierung von Berichten aus dem mehrdimensionalen Datenmodell muss für den Endnutzer einfach und flexibel möglich sein. Das OLAP-Sy-stem sollte sowohl Standardberichte zur Verfügung stellen als auch die Erzeugung individueller Berichte und Grafiken unterstützen.
12 Unbegrenzte Di-mensions- und Aggregationsstufen
OLAP-Systeme müssen in der Lage sein, eine unbegrenzte Anzahl von Dimensions- und Verdichtungsstufen zu unterstützen, wobei für betriebs-wirtschaftliche Analysen die Beschränkung auf max. 20 Dimensionen aus-reichend ist.
FASMI-Definition nach PENDSE/CREETH
F Fast
Die durchschnittliche Antwortzeit bei Abfragen sollte bei 5 sec. liegen, wobei sie bei einfachen nicht mehr als 1 bis 2 sec. und bei komplexen Analysen max. 20 sec. betragen sollte.
A Analysis of
Das OLAP-System sollte über alle für die Datenanalyse notwendi-gen analytischen und statistischen Funktionalitäten verfügen, die den Endnutzer dazu befähigen, auch ohne Programmierkennt-nisse neue Ad Hoc-Abfragen und -Kalkulationen durchzuführen.
S Shared
Das OLAP-System sollte über alle Sicherheitsfunktionen wie ein RDBMS verfügen (z.B. verschiedene Schutzmechanismen bei Mehrbenutzerbetrieb, Sperrverfahren bei konkurrierenden Zugrif-fen).
M Multidimen-sional
Das OLAP-System sollte die multidimensionale konzeptionelle Sicht auf die Daten unterstützen sowie die Bildung von Hierarchien innerhalb der Dimensionen zulassen.
I Information
Das OLAP-System sollte alle vom Endbenutzer benötigten Infor-mationen, unabhängig von Datenherkunft und -menge, bereitstel-len.
Dashboard
Ein Dashboard (auch Kennzahlen-Cockpit, Management Cockpit, Scorecard oder Cockpit-Chart) ist eine Visualisierungsform großer Mengen von meist verteilten Informationen in verdichteter Form, z.B. als Kennzahlen, Messpunkte oder Key Performance Indikatoren (KPI).
Der Grad sowie die Visualisierungsform der Verdichtung sind ziel- und adressatenabhängig.
Die Verdichtung beinhaltet eine Quantifizierung und darauf aufbauend eine Qualifizierung von Informationen, um den Adressaten große Mengen von Informationen übersichtlicher darzustellen. Häufig zu finden ist die Darstellung von Kennzahlen als Ampel-, Tachometer- oder Thermometer-Darstellung.
Multidimensional Expressions (MDX)
Multidimensional Expressions (MDX) ist eine Datenbankabfragesprache für OLAP-Datenbanken. Sie wurde von Microsoft vorangetrieben und etabliert sich als Industriestandard. MDX wurde wesentlich von Mosha Pasumansky entwickelt. MDX ist insgesamt sehr komplex und mächtig. [Wikipedia]
geht von SQL aus, vederwendet gleichartige Syntax, erlaubt multidimensionale Analysen via Abfragesprache auszuführen
OLAP-Anwendungsbeispiel
OLAP stellt unterschiedlichen Nutzern unterschiedliche Sichten auf die zu analysierenden Daten zur Verfügung.
Realisierung rollen- und funktionsabhängiger Sichten erfordert vielfältige, leicht zu handhabende Navigationsmöglichkeiten. In diesem Zusammenhang sind vor allem folgende Techniken von Interesse, die jeweils von der Existenz eines Datenwürfels (Hypercube) ausgehen:
• Slicing: Abschneiden von Scheiben aus dem Datenwürfel
• Dicing: Herausschneiden eines speziellen Unterwürfels
• Pivoting: Drehen, Rotieren des Datenwürfels
• Drilling: Aufbrechen, Detaillierung, Verfeinerung (Varianten: u. a. Drill Down, Drill Up, Drill Across; Drill Anywhere)
Prozessorientiertes Vorgehen
- Continuous Business Improvement Cycle als Ausgangspunkt
siehe Grafik
2.Zwei Konsequenzen für das Data Warehousing:
• Das Data Warehouse ist niemals ein Endzustand, sondern immer ein Prozess.
iterativer Analyseprozess
iteratives Phasenmodell bei Einführung/Erweiterung
• Data Warehouse erhält Schlüsselrolle im Unternehmen und wird zum bleibenden Kostentreiber.
Einbeziehung des Top
Managements in Data Warehouse- Gestaltung wird zum unterneh-merischen Erfolgsfaktor.
Data Mining
Sinkende Verdopplungszeit der Informationen, aber nur 5 ... 10 % dieser Informationen werden analysiert.
Ziel des Data Mining ist die automatische und nichttriviale Suche nach Wis-sen in Massendaten. Die Suchmethoden sind nichttrivial, weil sie statt der herkömmlichen Datenbankwerkzeuge komplexe Methoden aus den Berei-chen der wissensbasierten Systeme und der Statistik verwenden. [Lusti, a.a.O., S. 250]
Data Mining ist damit der Prozess (nicht das Tool!), um neue gehaltvolle Be-ziehungen, Muster und Trends zu entdecken, indem mittels statistischer und mathematischer Methoden große Datenmengen gesiebt werden. [Integrata]
CRISP-DM
CRISP-DM-Vorgehensmodell (Cross-Industry Standard Process for Data Mining).
Gemeinschaftsprojektes von Industrieunternehmen, Herstellern von Data-Mining-Produkten und Anbietern von Datenbanklösungen unter Schirmherrschaft der Europäischen Kommission 1997.
Clustering auf der Basis neuronaler Netze
Künstliche neuronale Netze entstammen der Biologie. Sie haben das Ziel, das menschliche Gehirn nachzubilden. In der Informatik werden sie dem Bereich der Künstlichen Intelligenz zugeordnet. Wesentliche Bausteine sind die Neuronen. "Ein Neuron ist eine lernfähige Verarbeitungseinheit, die Eingaben aus anderen Neuronen oder der Umwelt verarbeitet und an weitere Neuronen oder die Um-welt ausgibt." [M. Lusti (1999, S. 319 f.] Zu den Komponenten eines künstlichen Neu-rons zählen:
• n gewichtete Eingänge
• Transformationsfunktion
• ein Ausgang
Neuronale Netze
Künstliche neuronale Netze beinhalten in Schichten angeordnete Neuronen. Über die Inputschicht wer-den Daten aufgenommen und durch die Output-schicht Ausgabewerte be-reitgestellt. Input- und Out-putschicht sind über ver-steckte Schichten mitein-ander verbunden, wobei zwischen allen Neuronen benachbarter Schichten gewichtete Verbindungen bestehen (vgl. Lusti, S. 326)
KOHONEN-Netze
Eine Sonderform künstlicher neuronaler Netze (kNN) bilden die Selbstorgani-sierenden Karten oder, von ihrem Ent-wickler Teuvo Koho-nen 1984 als Self Organizing Maps (SOM) oder Self Or-ganizing Feature Maps (SOFM) vorge-stellt . Einen wesent-lichen Unterschied zu allen anderen Netzty-pen bildet bei diesem relativ jungen Ansatz die besondere Bedeutung der geometrischen Anordnung der Neuronen. Mit Hilfe dieser Eigenschaft lassen sich SOM-Modelle in vielfältigen Anwendungen einsetzen. Ihr Haupteinsatzgebiet stellt dabei die Klassenbildung und Klassifizierung von Daten innerhalb des Data Mining dar, jedoch werden sie auch für Prognose-Aufgaben oder im Bereich der Optimierung eingesetzt.
Charakteristisch für Kohonen-Netze ist, dass das Lernverfahren ohne Lehrer stattfindet unüberwachtes Netz. Der Nachteil unüberwachter Netze liegt darin, dass das Wissen über die Zusammenhänge eines neuronalen Netzes nicht dokumentiert sind. Dies be-deutet, dass das Netz zwar funktioniert, aber niemand sagen kann, warum es funktio-niert. Das Netz ist eine black-box, deren Wissen nirgendwo festgehalten ist.
BI Maturity Model
Standard vs Flexibilität
zufällig vs Machtbenutzer
Entscheidungslatenz vs Datenfrische
Kosten vs Wert
Information als Erfolgsfaktor für das Unternehmen
- Information als 1. Produktionsfaktor
- Datenchaos, Verschwendung informationeller Ressourcen
Stand 2014: 5 % der verfügbaren Daten werden für die Analyse genutzt. [isreport 8/2014, S. 12]
Datenanalyse beschränkt sich weitgehend auf strukturierte Daten, aber ca. 80 Prozent der Daten sind nicht strukturiert.
Unternehmen beziffern den Wert, den ihre Daten am Gesamtwert des Unternehmens ausmachen, mit rund 37 Prozent. [PWC, 2004]
3. Erfordernis der strikten Kundenorientierung
Begriffserläuterung
Daten
"Data are the basic building blocks of the information economy and of knowledgebased business. ..They are the 'unorganized sludge' of the information age." [Davis,S./Botkin, J.]
Daten sind einzelne objektive Zahlen, Quantitäten, Variablen oder Fakten zu Ereignissen oder Vorgängen und geben zunächst keine Auskunft über die eigene Bedeutung oder Belanglosigkeit. Sie sind allein Rohmaterial für eine spezifische Entscheidungsfindung.
DATABILITY = Leitthema der CeBIT 2014: Die Fähigkeit, große Datenmengen in hoher Geschwindigkeit verantwortungsvoll und nachhaltig zu nutzen.
d!conomy = Leitthema der CeBIT 2015: allgegenwärtige Datendigitalisierung
Begriffserläuterung
Informationen
Aus Daten werden erst dann Informationen, wenn sie einerseits in einen Problemzusammenhang gestellt werden und andererseits zur Erreichung eines bestimmten Zieles dienen.
„Schließen Sie das Potenzial von sozialen Netzen auf! “ [Drucker, P.]
Mit Informationen erlangt man (objektive) Kenntnisse über Sachverhalte, um entscheiden zu können, wie ein Ziel am günstigsten erreicht werden kann.
Dabei sind Informationen nicht an Personen gebunden und lassen sich heute mit Hilfe informationstechnischer Infrastrukturen weltweit schnell und kostengünstig verbreiten.
Eine Information bedarf aber aus kommunikationstheoretischer Sicht immer eines Senders und Empfängers.
Und genau genommen ist es der Empfänger, der darüber entscheidet, ob ihn die Information auch wirklich informiert. Denn ob die empfangenen Daten für den Empfänger eine wahre Information darstellen, zeigt sich erst in ihrer Bedeutung bzw. Belanglosigkeit und nicht zuletzt in ihrem Zweck für den Empfänger.
Begriffserläuterung
Content
Content = webbasierte Daten.
Mit Hilfe eines Content Manegement Systems (CMS) ist es möglich, unterschiedlichen Content (Text, Bilder, Audio, Video etc.) zu sammeln, zu implementieren, darzustellen und zu verteilen. Zu den traditionellen CMS kommen heute verstärkt einfache Systeme auf Wiki-Basis.
Begriffserläuterung
Wissen
Sir Francis Bacon (1561 - 1626): "Knowledge is Power"
Um aus Informationen Wissen zu generieren, ist die Einbindung der Informationen in einen Erfahrungskontext eine der erforderlichen Voraussetzungen.
Informationen müssen kombiniert und mit persönlichen Motivationen und Intentionen verknüpft werden.
Zudem ist Wissen handlungsorientiert, es ermöglicht dem Wissensträger Handlungsvermögen aufzubauen.
Wissen kann demnach als zweckorientierte Vernetzung von Informationen verstanden werden.
Folglich hat Wissen nur in einem speziellen Kontext einen Wert.
Zugleich kann Wissen aufgrund der Kontextgebundenheit auch nur ausschnittsweise als Information abgebildet werden.
Des Weiteren unterliegt Wissen einer ständigen Mutation, denn durch neu erlangte Informationen wird das Wissen eines Menschen fortwährend erweitert verändert und umstrukturiert.
Systematisierung
Business Intelligence
Hans Peter Luhn hat zuerst den Begriff Business Intelligence verwendet. Er hat Intelligenz als "die Fähigkeit" definiert "welche Wechselbeziehungen von präsentierten Tatsachen auf solche Art und Weise zu begreifen, um Handlungen zu einer gewünschten Absicht zu führen.
Howerd Dresner (später ein Analytiker von Gartner Group) hat BI als ein Überbegriff vorgeschlagen, um "Konzepte und Methoden zu beschreiben, das Geschäftsentscheidungsbilden zu verbessern, indem er tatsachenbasierte Unterstützungssysteme verwendet hat.
Heute, in Zusammenhang mit Gartner Group: " Geschäftsintelligenz ist der Prozess von sich verwandelnden Daten in Informationen und dadurch die gewinnung von Kenntnissen."
Business Intelligence
Data Warehousing Data Mining
(OLAP)
data knowledge
oriented oriented
CPM
Corporate Performance Management: Methoden, Kennzahlen, Prozesse und Systeme, um die Leistung des Unternehmens zu messen und zu steuern
Tom de Marco: „Was man nicht messen kann, kann man nicht kontrollieren.“
Aktuelle BI-Trends
Business Intelligence wird gegenwärtig von 4 Megatrends bestimmt:
Big Data,
Social Computing,
Cloud Computing und
Mobile Computing.
Big Data
Seit 1975 finden regelmäßig VLDB-Konferenzen statt, die sich den „sehr großen“ (very large) Datenbanken widmen.
Als Konsequenz der kontinuierlichen Messwerterfassung durch Sensoren im Internet of Things (IoT), der explodierende Datengenerierung in sozialen Netzwerken und der App-Überflutung in Smartphones wird das Auftreten großer Datenmengen zur Massenerscheinung.
Laut Gartner soll das IoT bis 2020 26 Milliarden physische Komponenten umfassen.
Das Massendaten-Phänomen, das gerade erst begonnen hat und zweifellos eine digitale Revolution bewirkt, wird als Big Data bezeichnet.
Zum Beispiel:
• Im CERN wird in jeder Sekunde 1 Petabyte Daten produziert. Das ist in jeder Stunde ein größeres Datenvolumen als in der gesamten Menschheitsgeschichte bis zum Ende des 20. Jh.
V4-Modell mit vier Schlüsseleigenschaften
Volume
Big Data erfordert ein effizientes Skalieren riesiger Datenmengen. Oracle gibt das folgende Beispiel an: Ein Düsentriebwerk generiert 10 TB Daten in 30 Minuten. Mit mehr als 25.000 Flügen pro Tag entstehen Petabyte-Datensilos, die von der existierenden Data-Warehouse-Technologie nicht mehr beherrscht werden können.
Velocity
Big Data erfordert trotz der massiven Datenströme, wie sie beim kontinuierlichen Messen in technischen Systemen oder in sozialen Netzwerken entstehen, analytische Auswertungen mit Echtzeittendenz.
Variety
Big Data erfordert die Beherrschung einer Vielzahl von Datenquellen, Speichertechnologien, Datentypen und –schemata auch bei sich ändernden Prozessbedingungen.
Value
Big Data erfordert im Interesse von Kosteneffizienz die Differenzierung von einzuleitenden Analysemaßnahmen nach deren ökonomischem Wert.
Big Data ist der Auslöser für einen Paradigmenwechsel der existierenden Data-Warehouse-Technologie. Bedingt durch die exponentiell steigenden Datenmengen muss es zukünftig gelingen,
die Verarbeitungsperformance signifikant zu erhöhen,
auch nichtstrukturierte Daten entsprechend dem heutigen Standard für die Analyse strukturierter Daten auszuwerten.
Big Data Strategie nach dem FORCE-Modell von Davenport (2014):
Fact-based, also tatsachenbezogene Entscheidungsfindung
Organisation (Governance) von Analysten und Ressourcen
Review, also kontinuierliche Überprüfung betriebswirtschaftlicher Prämissen und Modelle
Culture, also Stärkung der Kultur analytischer Entscheidungen und Lernstrategien
Embedding, also Einbettung der Datenanalyse in wichtige Geschäftsprozesse
HANA-Datenbanken (SAP)
High-Performance Analytic Appliance, für deren Entwicklung vor allem das Potsdamer Hasso-Plattner-Institut verantwortlich zeichnet, einen entscheidenden Beitrag zur Performanceverbesserung für Big Data.
HANA kombiniert die In-Memory-Technologie, bei der die zu verarbeitende Datenbank direkt in den Arbeitsspeicher geladen wird, mit dem spaltenorientierten Datenbankdesign, das als eine Variante der aussichtsreichen NoSQL-Datenbanken angesehen werden kann.
Hadoop-Technologie
- Um nichtstrukturierte Daten in eine auswertbare Form zu bringen
- Hadoop gehört wie Linux zur Open-Source-Familie
- Hadoop ist ein in Java entwickeltes Framework, das im Kern aus dem MapReduce-Algorithmus und dem Hadoop Distributed File System (HDFS) besteht.
- Es lassen sich damit sehr rechenintensive Prozesse auf mehrere Servercluster verteilen und große Volumen an Daten verarbeiten.
- Der MapReduce-Algoritmus splittet dabei die Prozesse in unabhängige Teilprozesse und führt diese parallel und verteilt aus (Map-Phase). In einem zweiten Schritt werden diese Daten wieder zusammengeführt (Reduce-Phase).
Den Ansatz beschreibt Oracle wie folgt: „Break problem up into small sub-problems“. Damit wird an die aus den 1980er Jahren bekannte Technologie des Massive Parallel Processing angeknüpft.
Mit Hilfe von HDFS wird es möglich, komplexe Verarbeitungsprozesse zur Transformation nichtstrukturierter Daten mit extrem großen Datenmengen in einem Computercluster auf Knotenrechner zu verteilen;
Zum Hadoop-Framework gehören u.a. HBase (spaltenorientierte Datenbank) und Hive (Erweiterung von Hadoop um Data-Warehouse-Funktionalität, insbes. durch SQL-ähnliche Abfragesprache)
-
- 1 / 100
-