XML

Elektronisches Publizieren

Elektronisches Publizieren


Fichier Détails

Cartes-fiches 34
Langue Deutsch
Catégorie Informatique
Niveau Université
Crée / Actualisé 13.01.2014 / 04.12.2015
Lien de web
https://card2brain.ch/box/xml1
Intégrer
<iframe src="https://card2brain.ch/box/xml1/embed" width="780" height="150" scrolling="no" frameborder="0"></iframe>

Warum XML?

  • Datenprobleme
  • Konvertierungsprobleme
  • viele Dateiformate
  • hohe Satzkosten
  • keine Langzeitarchivierung der Daten
  • Wunsch nach Mehrfachverwertung der Daten
  • Wunsch nach automatisierter Produktion

Unicode

  • Standart der Zeichencodierung für alle weltweit gebrauchten Zeichen
  • UTF-8 formatiert
  • versch. Alphabete, feröstliche Schriftzeichen tec.
  • jedes Zeichen besitzt eigene Nummer (Codeposition)

UTF8

  • Codierungsformat von Unicode-Zeichen
  • Art, wie Zeichen auf der Festplatte abgelegt werden

Wozu Struktur und Formatierung?

Strukturierung von Dokumenten erleichtert das Erfassen der Infos

Formatierung von Dokumenten erleichtert die Wahrnehmung der Struktur

Textcodierung und andere Codierungen

  • Zeichencodierung (Unicode, ASCII, etc)
  • Seitencodierung (PostScript, PDF etc.)
  • Textcodierung (SGML, XML)

Textauszeichnungssprache

  • mark up language
  • regelt, wie Textauszeichnung verwendet wird
  • welche Art der Auszeichnugn ist erlaubt/erforderlich
  • Was bedeutet die Auszeichnung

Die Textauszeichnungssprache legt fest...

  • wie man die Zeichen eines Textes codiert
  • wie man die Textstruktur auszeichnet
  • wie man den Text auf ein lineares Gebilde reduziert
  • wie man evtl. außerordentliche Infos darstellt
  • wie man ein korrektes Dokument von einem fehlerhaften unterscheidet

XML

  • Extensible Markup Language
  • Standardisiertes Dateiformat
  • zum Archivieren und Austauschen von Dokumenten
  • Sprache, mit der Dokumentstrukturen beschrieben werden
  • Metasprache, die abstrakte Syntax für Auszeichnungssprache definiert
  • Teilmenge von SGML

Ziele von XML

  • Trennung von Inhalt (Content) und Auszeichnng/Verarbeitungsanweisung (Style)
  • Wiedervewendung von texten
  • Systemunabhängige, austauschbare Daten
  • Texte auszeichnen
  • nachvollziehbare, ansteuerbare Struktur
  • saubere Schnittstellen für Sonderkodierungen (Grafik, Musik, etc.)
  • --> intelligente Daten statt intelligenter Software
  •  

 

Vorteile von XML

  • XML ist sachlich, nicht verfahrensorientiert
  • eignet sich zur inhaltlichen Beschreibung des Textes, nicht zur Beschreibung der Seite
  • Dokumenttypen werden formal vereinbart (DTD)
  • geräteunabhängig
  • W3C-Standard
  • weit verbreitet
  • alle neuen Publikationsformen sind XML-basiert oder lassen sich daraus erzeugen

XML dient der Qualitätssteigerung

  • plattformneutral (keine Konvertierungsprobleme)
  • validierbar (keine Vorgabe für Aufbau)
  • Inhalte werden semantisch beschrieben
  • duch Parser überprüfbar
  • selbsterklärend
  • Autoren kümmern sich um Inhalte, nicht Gestaltung
  • speichert Inhalte medienneutral
  • Schnittstellenformat für diverse Programme
  • hierarchische Anordnung der Daten in Baumstruktur
  • XML-Datei wird durch Elemente und Attrbute gegliedert

Element

alles von einschließlich Start- bis Endtag

kann andere Elemente, Text und Attribute enthalten

 

Namensregeln für Tags und Elemente

  • kann Buchstaben, Ziffern und andere Zeichen enthalten
  • darf nicht mit Ziffer oder Satzzeichen beginnen
  • darf nicht mit XML beginnen
  • es gibt keine reservierten Worte

Attribute

  • zusätzliche Angaben zum Element
  • Infos, die nicht direkt zum Autorentext gehören
  • stehen nur im Start-Tag oder leeren Elementen
  • stehen in Anführungsstrichen ""

z.B.: <album zustand="zerkratzt">Stadtaffe</album>

Element oder Attribut?

  • keine Vorgaben, wann etwas im Attribut, wann als Element modelliert wird
  • Attribute können pro Element nicht mehrere Werte annehmen
  • Attribute können nicht verschachtelt werden
  • Attribute sind im Nachhinein schwer umzumodellieren
  • ABER: Elementinhalte können nicht mittels DTD abgeprüft werden, Attribute schon

Elemente oder Attribute II

  • Autorentext in Elemente
  • alles, was am Bildschirm gelesen werden soll in Elemente
  • alles was nicht gesehen werden soll, aber mit verarbeitet wird in Attribute
  • Metadaten zum Inhalt eines elements in Attribute
  • hierarchische, umfangreiche Metadaten in Element

Entities

  • Variabeln für einen Ersetzungstext
  • z.B. Sonderzeichen, getaggte Texte-> in DTD deklariert
  • 5 vordefinierte Entities, die nicht delariert werden müssen

Nenne die 5 Standard-Entities

  • Apostroph '
    &apos;
  • größer als >
    &gt;
  • kleiner als <
    &lt;
  • Kaufmanns-und &
    &amp;
  • Anführungszeichen
    &quot;

 

Kommentare

<--!Kommentar-->

  • nicht innerhalb von Tags
  • Text um Kommentar gehört nicht zum Dokument
  • kann mit X-Path angesteuert werden (Kommentarknoten)

Kriterien der Wohlgeformtheit

  1. es gibt genau 1 Wurzelelement
  2. XML Dokument enthält ein oder mehrere Elemente
  3. jedes element hat einen Start- und Endtag
  4. leere Elemente enden mit /  (<.../>) 
  5. Tags sind korrekt ineinander verschachtelt
  6. Attributwerte in Anführungsstriche "..."
  7. Attribut darf nur einmal im selben Element auftreten
  8. alle Entities müssen deklariert sein

DTD

  • Dokument Type Definition
  • enthält Regeln, nach denen die XML-Datei aufgebaut ist
  • stellt Einhalten der Struktur sicher
  • entspricht die XML-Datei diesen Regeln, ist sie valide
  • Welche Elementtypen gibt es
  • Welchen Inhalt dürfen sie haben
  • Welche Attribute sind erlaubt
  • Welche Werte dürfen sie annehmen
  • Entities
  • Altenative: XML Schema

Konnektoren

  • ,
  • |
  • &
  • ?
  • *
  • +

Konnektor

,

  • und-Verknüpfung
  • geordnete Gruppe
  • alles muss auftreten
  • A, B, C

Konnektor

|

  • oder-Verknüpfung
  • Gruppe von Alternativen
  • genau einer muss auftreten
  • A|B|C

Konnektor

&

  • ungeordnete Gruppe
  • beliebige Reihenfolge
  • alles muss auftreten

Occurance Indicatior

?

  • optional und/oder wiederholbar
  • kann, muss aber nicht vorhanden sein
  • einmal oder keinmal
  • 1|0

A?

Occurance Indicator

*

  • optional und wiederholbar
  • kann beliebig oft, muss aber nicht vorhanden sein
  • X|0
  •  

A*

Occurance Indicator

+

  • wiederholbar
  • muss mindestens einmal vorhanden sein, beliebig oft
  • 1|X

A+

Elementtypen

  • Container-Elemente
    Tags mit verschachtelten Elementen
     <!ELEMENT buch (vorwort,kapitel+,nachwort)>
  • Daten-Elemente
    - Tags mit Datein, keine weitere Gliederung
      (#PCDATA)
  • leere Elemente
      <!ELEMENT br EMPTY>
    - oft Träger von Attributen
      <!ELEMENT img EMPTY>
      <!ATTLIST img src CDATA #REQUIRED>
  •  Gemischte Elementtypen
    - im Datenelement werden weitere Kind-Elemente benötigt
    - Datenelement wird zum Containerelement
     <!ELEMENT absatz (#PCDATA|fett|kursiv)*
    - nur innerhab beliebig oft wiederholbarer (*) oder-Gruppe (|)

Attribut

  • wird Element beigefügt
  • im Starttag direkt hinter Element-Namen
  • dann = und der Wert in Anführungszeichen
  • mehrere Attribute jeweils einmal möglich
  • getrennt durch Leerraum

<album genre="hiphop" typ="party" tanzbar="ja">Stadtaffe</album>

  • deklariert mit Attlist

plattformneutral

  • Rechnerbetriebssystem-übergreifend
  • Daten können konvertierungsfrei auf jeder Plattform gelesen werden
  • unverschlüsselt
  • mit offenem Zeichenformat
  • wie zB auch Post Script. PDF NICHT

medienneutral

  • plattformneutral
  • eine Quellstruktur für alle Ausgabemendein
  • nicht medienspezifisch
  • nur ein Datenbestand muss gepflegt werden

XPath

  • Hilfssprache
  • Auswahl von Elementen im XML-Dokument
  • Navigationssprache, um einzelne Knoten im XML-Baum zu adressieren
  • von XSLT benutzt

XSLT

  • Basis: XPath
  • Transformationssprache mit Quell- und Zieldokument
  • XML-Vokabular in XHTML (ua) übersetzen
  • XML wird vollautomatisch zu XHTML
  • Prinzip: Suche und Ersetzte Knoten