ETL mit DATANAUT UC

DATANAUT UC unterstützt symmetrisches Multi-Processing. Durch die Unterteilung in einzelne Prozessgruppen und entsprechende Aktivierung der Parallelverarbeitungsoption für die Gruppe, werden alle in einer Prozessgruppe geführten Projektschritte in einer frei definierbaren Anzahl von Threads parallel ausgeführt.

Massiv paralleles Processing (MPP) und Grids

DATANAUT UC unterstützt auch massiv paralleles Processing und Grids. Projekte einer Projektgruppe oder die in einem Projekt enthaltenen einzelnen Projektschritte können auf Rechnersysteme verteilt werden. Die einzelnen Systeme greifen dabei auf die gleiche Datenbank zu.

Unterstützung für Job-Distribution, Data-Pipelining und Partitioning

Job -Distribution, Data-Pipelining und Partitioning sind möglich. Das Steuerprinzip basiert auf dem gleichen Konzept wie die Steuerung für MPP.

Clusterfähigkeit

Einzelne Runtime-Module von DATANAUT UC (so genannte Processoren) können im Cluster laufen. Zudem kann die Management-Datenbank von DATANAUT UC auf einem Clustersystem laufen.

Basis-Architektur

Die Architektur von DATANAUT UC erlaubt es, Daten über einen zentralen Pfad von einer Quelle zu einem Ziel zu übertragen und dabei zu transformieren (Hub & spoke-Prinzip). Über Datenbank-Container können optional beliebig viele Quellen und Ziele gegeneinander laufen (Multi hub & spoke).

ETL Funktionen (200) - Splitten von Data-Streams, Ausgabe in mehrere Ziele

Daten können aus einer Quelle geladen und in mehrere Zieldatenbanken oder Tabelle übergeben werden, ohne die Daten mehrmals zu lesen.

Konditioniertes Splitten und Verteilen von Daten

Daten können über konditionierende Regeln auf verschieden Zieldatenbanken oder Tabellen übergeben werden.

Zusammenführen von Daten aus verschiedenen Tabellen (UNION)

Über eine UNION Anweisung können Daten aus Tabellen in definierte Zieldatenbanken oder Tabellen gemeinsam übergeben werden, auch wenn die den Quelldaten zugrunde liegenden Strukturen unterschiedlich sind.

Pivotierung / De-Pivotierung

Daten können normalisiert oder de-normalisiert werden. Dies bedeutet beispielsweise, dass Felder mit Umsatzzahlen für die Monate 01 – 12 aus einem Datensatz so aufgelöst werden können, das diese Daten nach der Verarbeitung in 12 einzelnen Datensätzen stehen.

Lesen von unstrukturierten Daten

Unstrukturierte Daten wie Office-Dokumente, Audio- und Videodaten, Emails oder PDF-Dateien können mit DATANAUT UC in Datenbanken importiert oder von dort wieder ausgegeben werden. Soll diese Art von Daten in ein anderes Datenbankformat gewandelt werden, geschieht dies automatisch im Transformationsprozess.

Datenversionen (Slowly changing dimensions)

Verschiedene Versionen von Daten eines Ursprungs (Dimensions) können unterschieden werden, um in Aggregatsfunktionen korrekt zu gewichten oder bei der Betrachtung von Daten im Drill-Down die für ein bestimmtes Zeitfenster benötigten Detaildaten darzustellen.

Automatisierung / Scheduling

Der Ablauf von Projekten kann zusätzlich über einen Scheduler vollständig automatisch gestartet werden. Dabei können auch steuernde Eingabedaten aus einer Datenbank den Projektdurchgang beeinflussen.

Fortführung / Abbruch bei Fehlern

Im Fehlerfall können laufende Projekte abgebrochen oder weitergeführt werden. Fehler auf Zeilenebene können zudem optional ignoriert werden.

Impact analysis / Wechselwirkungsanalyse

DATANAUT UC unterstützt die skript-gesteuerte Analyse von Wechselwirkungen in Daten, sofern sich die Wechselwirkung in der Programmiersprache der Datenbank modellieren und abbilden lässt. Alternativ besteht die Möglichkeit Pre- und Postprozesse zu implementieren, die optional den Einsatz von alternativen Software-Technologien unterstützen.

Weiterverwendung der Daten im DATA-Mining Modell oder EXCEL

Extrahierte oder geladene Daten können optional in DATA-Mining Lösungen oder nach EXCEL übergeben werden.

Unterstützung für Analyse-Funktionen

DATANAUT unterstützt jeweils alle von der Datenbank bereit gestellten Analyse-Funktionen. In vielen Fällen ist jedoch die Übergabe der Daten in spezielle Programme EXCEL oder MATHEMATICA eher empfehlenswert.

Benutzerfreundlichkeit (300) - Ausführung von Projekten

Alle Projekte lassen sich einzeln oder in frei definierbaren Projekt-Containern ausführen. Die Ausführung kann durch Benutzer manuell angesteuert oder mittels Automatisierung ausgelöst werden.

Einrichtung von Projekten und Projekt-Containern für ETL

Die integrierte Entwicklungsumgebung (IDE) ist übersichtlich aufgebaut, aufeinander aufbauende Anwendungsteile sind logisch gegliedert. Entwickler sind oftmals in der Lage, sofort mit DATANAUT UC produktiv zu arbeiten, wenn sie bereits mit einer Programmiersprache oder Datenbank-Programmierung vertraut sind.

Design und Konzept

Maßnahmen werden in Form von Projekten strukturiert und können als Lösung vollständig automatisiert ablaufen. Im Bereich der IDE lassen sich einzelne Projektphasen ein- und ausblenden oder von der Ausführung ganz ausschließen.

Training- und Supportaufwand

Wenn Entwickler eigene ETL-Lösungen erstellen wollen, ist in den meisten Fällen lediglich eine 2-tägige Einweisung in die Grundlagen der Software erforderlich. Danach können bereits eigene Lösungen erstellt werden. Im erweiterten Umfeld von Enterprise-Solutions sind in der Regel weitere Schulungen erforderlich. Eine Einweisung für Anwender ist nicht erforderlich, wenn diese lediglich Projekte starten.

Wiederverwendung von ETL-Projekten und Jobs (400) - Weiterverwendung von Projekten

Durch optionale Parametrisierung können Codes durch Steuerdaten modifiziert werden. Verschiedene Projekte lassen sich einzeln oder gemeinsam in frei definierbaren Projekt-Containern ausführen. Dadurch können Maßnahmen in einer Kombination von Einzelprojekten beliebig kombiniert werden.

Benutzerdefinierte Funktionen oder Proceduren

DATANAUT UC unterstützt alle in den jeweiligen Datenbanken enthaltenen Möglichkeiten zum Aufruf eigener Stored-Procedures oder User-Defined Functions.

Dokumentationsbereich

Projekte oder einzelne Projektschritte können mit Dokumentationstext versehen werden, der außerhalb des eigentlichen Codes liegt.

Real-Time / Batch (500) - Integration von BATCH und REAL-Time

Die Ausführung im BATCH ist jederzeit möglich. Zusätzlich können Projekte in Projekt-Containern im Dauerbetrieb ablaufen. Um Jobs mit Anforderungen aus dem Umfeld von REAL-Time abzubilden, kann DATANAUT UC Prozesse über Signale ansteuern.

Mechanismen

Änderungen an den Quell-Daten können auf vielfältige Weise ermittelt werden. Dies ist wahlweise über Nachrichten aus der Datenbank, Abfragen von Daten oder dem Auslesen von LOG-Daten möglich. Zudem können eigene Trigger implementiert werden, um Statusinformationen zu senden.

Connectivity - Native Verbindungen

Mit den wichtigsten freien und kommerziellen Datenbanken kann DATANAUT UC direkt verbinden, ohne das die Installation von Datenbanktreibern erforderlich wäre. Durch Native Verbindungen werden deutlich mehr Möglichkeiten im operablen Umfeld geboten.

ODBC Verbindungen

DATANAUT UC kann zusätzlich mit allen gängigen ODBC-Treibern zusammen arbeiten und unterstützt somit über 60 Datenbank-Formate. Textbasierte XML- oder CSV-Dateien sowie EXCEL Daten können ebenfalls über ODBC ausgelesen werden.

Unterstützung für Joins und Views

Joins und Views können gleichermaßen genutzt und ausgeführt werden. Die Möglichkeiten der Gestaltung eigener Datenbankabfragen sind umfassend.

Unterstützung für Änderungen und Deltas (Changed-Data Capture)

Änderungen und Deltas können problemlos festgestellt werden, sofern die Datenstruktur dafür ausreichende Merkmale bietet.

Funktionen zur Ermittlung der Datenqualität

Alle in den Projekten definierbaren Einzelschritte können mit anderen Datenbanken kommunizieren, um Inhalte gegen eine Referenz zu prüfen.

Funktionen zur Datenvalidierung

Die in Projekten definierbaren Einzelschritte können Daten auf einer frei definierten Basis prüfen. Die Möglichkeiten sind nur durch den Funktionsumfang der Datenbank eingeschränkt. Reichen diese nicht aus, können die Daten in ein anderes, passenderes Datenbankformat übertragen werden.

Profilierung von Daten

Daten können über frei definierbare Profile geprüft und selektiert werden. Profile können beispielsweise sein: Einzigartigkeit, bestimmte Minimal- und Maximalwerte oder beliebige Ausprägungen.

Generische Charakteristiken - Unterstützte Betriebssysteme

Die DATANAUT UC Runtime-Processoren laufen auf allen Windows Systemen ab Windows XP. Die Datenbanken können auf einer beliebigen Betriebssystemplattform installiert sein.