Studium, Ausbildung und Beruf

web uni-protokolle.de
 powered by
NachrichtenLexikonProtokolleBücherForenMontag, 22. Dezember 2014 

Anfrageoptimierung in statistischen Datenbanksystemen

26.06.1997 - (idw) Friedrich-Alexander-Universität Erlangen-Nürnberg

Informatik: DFG foerdert FAU-Projekt

Die richtige Scheibe vom Wuerfel trennen: Anfrageoptimierung in statistischen Datenbanksystemen

Statistische Datenbanksysteme, die im Bereich technisch-wissenschaftlicher Anwendungen genutzt werden, sind mit den sehr viel einfacher strukturierten traditionellen Datenbanksystemen kaum zu vergleichen. Fuer das "Scientific Computing" fallen beispielsweise ungemein hohe Datenmengen an, die sich durch staendigen Zulauf immer neu aufsummieren, ohne dass alte Bestaende geloescht oder geaendert wuerden. Eine neue Methode zur Formulierung und kosteneffizienten Verarbeitung von komplex strukturierten statistischen Tabellen wird seit Ende letzten Jahres am Lehrstuhl fuer Datenbanksysteme der Universitaet Erlangen-Nuernberg unter der Projektleitung von Prof. Dr. Hartmut Wedekind entwickelt. Die Deutsche Forschungsgemeinschaft foerdert das Projekt zum Thema "Darstellung und kostenoptimierte Verarbeitung komplexer Tabellen in statistischen Datenbanksystemen" fuer zwei Jahre.

Komplex strukturierte Tabellen repraesentieren in statistischen Bereichen das entscheidende Visualisierungs- und Formulierungsmittel von Anfragen an eine Datenbank. Die grundlegende Idee des im Rahmen dieses Projektes verfolgten Ansatzes ist es, die komplexe Anfrageoptimierungskomponente aus dem Datenbanksystem auszugliedern und als Anwendung auf ein Computeralgebrasystem abzubilden.

Das Gebiet technisch-wissenschaftlicher Anwendungen, d.h. das Erfassen und Auswerten grosser Datenmengen war neben dem Bereich der analytischen Berechnung eines der ersten rechnerunterstuetzten Anwendungsgebiete und besitzt somit eine lange Tradition in der elektronischen Datenverarbeitung. Vertreter des "Scientific Computing" finden sich sowohl in den klassischen Bereichen der Bevoelkerungs- und Wirtschaftsstatistiken, als auch in der Klima- und Umweltforschung oder in der Molekularbiologie.

Taeglich zwei Milliarden Schreibmaschinenseiten

Gemeinsamkeiten aller Anwendungsgebiete sind:

- Das hohe Datenvolumen; beispielsweise umfasst das taegliche Datenvolumen des "Earth Observing System" (EOS) der NASA 1012 Byte (das entspricht einem TeraByte oder 200.000.000 Seiten Schreibmaschinentext).

- Die Datenbasis wird permanent durch neue Information ergaenzt, wobei alte Daten zum Zweck der Langzeitauswertung nicht geloescht werden, so dass die Datenbasis stetig anwaechst.

- Einmal erfasste Messdaten bleiben nach der Erfassung und Korrektur von Ausreissern unveraendert und dienen als Datenbasis von lesend zugreifenden Analyseprozeduren.

- Entgegen konventionellen Datenbanksystemen erfolgt der Zugriff nicht satzorientiert, sondern verdichtend gemaess einem vorgegebenen Klassifikationsgeruest.

Diese Charakteristika des Anwendungsgebietes bzw. der sich daraus ergebenden Anforderungen zeigen auf der einen Seite grosse Unterschiede zu traditionellen Anwendungsgebieten von Datenbanksystemen. Auf der anderen Seite verwenden heutige statistische Analyseprogramme proprietaere Datenhaltungsmechanismen mit all ihren Nachteilen.

Gesucht ist somit ein integrierter Gesamtansatz mit einer effizient arbeitenden Datenverwaltungsgrundlage. Dazu gilt es, Erfahrungen und Wissen aus dem traditionellen Bereich zu uebernehmen, aber auch neue und den Anforderungen angepasste Konzepte und Techniken zu entwickeln. Dieses Projekt greift aus einer Vielzahl neuer Problemstellungen das Thema der "kostenbasierten Anfrageoptimierung" heraus.

Forschungsgruppe mit Kontakten zur Praxis

Das Fachgebiet der Datenverwaltung in technisch-wissenschaftlichen Anwendungen ist als die aktuelle Auspraegung der seit 1985 etablierten Forschungsrichtung der Technischen Datenbanken in Form einer Forschungsgruppe seit vier Jahren am Lehrstuhl fuer Datenbanksysteme verankert. Die Gruppe hat es sich zum Ziel gemacht, die in der Welt des "Scientific Computing" auftretenden Probleme, welche mit herkoemmlichen konventionellen Datenbanksystemen nicht in den Griff zu bekommen sind, auf einer wissenschaftlichen Grundlage zu loesen, ohne dabei den engen Bezug zur Praxis zu verlieren.

So pflegt die Gruppe neben guten Kontakten zu auslaendischen Wissenschaftlern (insbesondere zur "Data Management Research and Development Group" am Lawrence Berkeley Laboratory (LBL), Berkeley, Kalifornien, und zum IBM Forschungszentrum in Almaden, Kalifornien) auch enge Kontakte zur Industrie, insbesondere zu dem Nuernberger Markforschungsunternehmen "Gesellschaft fuer Konsum-, Markt- und Absatzforschung" (GfK). Im Rahmen einer Kooperation mit der GfK wurden bereits mehrere Projekte durchgefuehrt. Fuer das aktuelle Projekt stellt die Gesellschaft aus einer Testfallaufbereitung Zahlenmaterial bereit, auf dessen Basis umfangreiche Analysen durchgefuehrt werden koennen.

Nach der Erfassung empirisch erhobener Datenbestaende in ein entsprechendes Datenverwaltungssystem, steht deren effiziente und meist durch statistische Methoden bestimmte Auswertung im Zentrum. Eine multidimensionale Auffassung scheint ein adaequates Mittel zur Datenmodellierung zu sein. Zum einen bietet sich ein multidimensionaler Datenwuerfel als darstellungsunabhaengige Repraesentation komplex strukturierter Tabellen an und ermoeglicht die flexible Definition unterschiedlicher Sichten auf den jeweiligen Datenbestand. Zum anderen reflektiert ein solches mehrdimensionales Modell die der Anwendung zugrundeliegende Zweiteilung der Datenbestaende in Stammdaten zur strukturellen Beschreibung der modellierten Miniwelt und in Bewegungsdaten, d.h. die Messdaten, welche den Gegenstand des Analysevorgangs bilden. Stammdaten entsprechen den Kanten eines Wuerfels und werden verwendet, um anwendungsspezifische "Scheiben" aus dem Wuerfel auszuschneiden und aus verschiedenen Perspektiven zu betrachten ("Slice & Dice"). Die Zellen eines Wuerfels beinhalten die Bewegungsdaten, d.h. die eigentlichen empirisch erfassten Informationen.

Vorrat an Antworten in Reserve

Eine in traditionellen Datenbanksystemen nicht einsetzbare, im Bereich des "Scientific Computing" allerdings lohnenswerte Moeglichkeit und Grundlage des in diesem Projekt angewandten Optimierungsanspruchs liegt darin, (Teil-) Antworten auf moegliche Anfragen bereits "im Hintergrund" zu errechnen, redundant im Datenbanksystem vorzuhalten und im Zug einer Anfrageverarbeitung zu verwenden. Dieser "merkwuerdige" Ansatz liegt zum einen in dem fuer den Anwendungsbereich typischen Anfrageprofil von ueberwiegend parametrisierten Standardanalysen begruendet; zum anderen bietet dieser Ansatz den einzigen Weg, Laufzeiten von Anfragen auf das extrem hohe Datenvolumen signifikant zu reduzieren.

Zur Amortisierung des nicht unerheblichen Zusatzaufwands der Speicherung redundanter Informationen ist es notwendig, hohe Trefferraten zu erzielen, indem die interne Darstellung einer Anfrage so restrukturiert wird, dass nach Ausfuehrung der Anfrageoptimierung ein (moeglichst) optimaler Ausfuehrungsplan zur Verfuegung steht. Die Anfrageoptimierung uebernimmt in diesem Projekt ein externes Algebrasystem; die Anfrageausfuehrung wird in dem zu entwickelnden Prototypen einem relationalem Datenbanksystem uebertragen.

Die Deutsche Forschungsgemeinschaft (DFG) finanziert fuer dieses Projekt eine auf zwei Jahre befristete Stelle fuer einen wissenschaftlichen Mitarbeiter.

Kontakt: Prof. Dr. Hartmut Wedekind, Dipl.-Inf. Wolfgang Lehner, Lehrstuhl fuer Datenbanksysteme (IMMD VI), Martensstrasse 3, 91058 Erlangen, Tel.: 09131/85 -7892, -7800, Fax: 09131/ 32090, WWW: http://www6.informatik.uni-erlangen.de/sdm.html


uniprotokolle > Nachrichten > Anfrageoptimierung in statistischen Datenbanksystemen

ImpressumLesezeichen setzenSeite versendenDruckansicht

HTML-Code zum Verweis auf diese Seite:
<a href="http://www.uni-protokolle.de/nachrichten/id/38847/">Anfrageoptimierung in statistischen Datenbanksystemen </a>