Diese Vorlesung ist inspiriert von den Präsentationen zu dem Kurs: „Architecture and Implementation of Database Systems“ von Jens Teubner an der eth zürich

Yüklə 5,94 Mb.

Diese Vorlesung ist inspiriert von den Präsentationen zu dem Kurs: „Architecture and Implementation of Database Systems“ von Jens Teubner an der ETH Zürich

Idee: Beschleunige die Suchphase durch sog. Index

ISAM-Indexe sind statisch

Das Vorsehen von Freiraum bei der Indexerzeugung reduziert das Einfügeproblem (typisch sind 20% Freiraum)

B+-Bäume von ISAM-Index abgeleitet, sind aber dynamisch

B+-Bäume ähnlich zu ISAM-Index, wobei

Funktionsaufruf search(k) bestimmt Blatt, das potentielle Treffer für eine Suche nach Elementen mit Schlüssel k enthält

B+-Baum soll nach Einfügung balanciert bleiben

Einfügung eines Eintrags mit Schlüssel 4222

Einfügung eines Eintrags mit Schlüssel 4222

Einfügung eines Eintrags mit Schlüssel 6330

Einfügung eines Eintrags mit Schlüssel 6330

Einfügung von 8180, 8245...

Nach 8180, 8245, füge 4104 ein

Aufspaltung beginnt auf Blattebene und verläuft nach oben solange Indexknoten vollständig belegt

insert(k, rid) wird von außen aufgerufen

Falls Knoten genügend gefüllt (mindestens d+1 Einträge), Eintrag einfach löschen

Leider ist die Situation nicht immer so einfach

Implementierungen verzichten auf die Kosten der Verschmelzung und der Neuverteilung und weichen die Regel der Minimumbelegung auf

Drei Alternativen

Implizite Indexe

B+-Bäume können verwendet werden, um Dinge mit einer definierten totalen Ordnung zu indizieren (im Prinzip1)

Eine typische Situation nach Alternative 2 sieht so aus:

Wenn die Datei mit den Datensätzen sortiert und sequentiell gespeichert ist, erfolgt der Zugriff schneller

Alternative 1 von oben ist ein Spezialfall eines geclusterten Index

B+-Baum-Verzweigung proportional zur Anzahl der Einträge pro Seite, also umgekehrt proportional zur Schlüsselgröße

Häufig treten Zeichenketten mit gleichem Präfix auf

Aufbau eines B+-Baums ist einfach bei sortierter Eingabe

Bisher B+-Bäume diskutiert

Zugriff auf Daten von O(n) ungefähr auf O(log n)

B+-Bäume dominieren in Datenbanken

Problem: Wie groß soll die Anzahl n der Hash-Felder sein?

Index-Sequentielle Zugriffsmethode (ISAM-Index)

Yüklə 5,94 Mb.

Dostları ilə paylaş:

Diese Vorlesung ist inspiriert von den Präsentationen zu dem Kurs: „Architecture and Implementation of Database Systems“ von Jens Teubner an der eth zürich

Diese Vorlesung ist inspiriert von den Präsentationen zu dem Kurs: „Architecture and Implementation of Database Systems“ von Jens Teubner an der ETH Zürich

Diese Vorlesung ist inspiriert von den Präsentationen zu dem Kurs: „Architecture and Implementation of Database Systems“ von Jens Teubner an der ETH Zürich

Graphiken wurden mit Zustimmung des Autors aus diesem Kurs übernommen

Sortierung der Tabelle CUSTOMERS auf der Platte (nach ZIPCODE )

Zur Evaluierung von Anfragen Verwendung von binärer Suche, um erstes Tupel zu finden, dann Scan solange ZIPCODE < 8999

Sequentieller Zugriff während der Scan-Phase

Es müssen log2(#Tupel) während der Such-Phase gelesen werden

Für jeden Zugriff eine Seite!

Idee: Beschleunige die Suchphase durch sog. Index

Idee: Beschleunige die Suchphase durch sog. Index

Knoten von der Größe einer Seite

Suchaufwand: logVerzweigung(#Tupel)

ISAM-Indexe sind statisch

ISAM-Indexe sind statisch

Löschen einfach: Lösche Datensatz von Datenseite

Einfügen von Daten aufwendig

Das Vorsehen von Freiraum bei der Indexerzeugung reduziert das Einfügeproblem (typisch sind 20% Freiraum)

Das Vorsehen von Freiraum bei der Indexerzeugung reduziert das Einfügeproblem (typisch sind 20% Freiraum)

Da Seiten statisch, keine Zugriffskoordination nötig

ISAM ist nützlich für (relativ) statische Daten

B+-Bäume von ISAM-Index abgeleitet, sind aber dynamisch

B+-Bäume von ISAM-Index abgeleitet, sind aber dynamisch

Keine Überlauf-Ketten

Balancierung wird aufrechterhalten

Behandelt insert und delete angemessen

Minimale Besetzungsregel für B+-Baum-Knoten (außer der Wurzel): 50% (typisch sind 67%)

Verzweigung nicht zu klein (Zugriff O(log n))

Indexknotensuche nicht zu linear

B+-Bäume ähnlich zu ISAM-Index, wobei

B+-Bäume ähnlich zu ISAM-Index, wobei

Blattknoten üblicherweise nicht in seq. Ordnung

Blätter zu doppelt verketteter Liste verbunden

Blätter enthalten tatsächliche Daten (wie ISAM-Index) oder Referenzen (Rids) auf Datenseiten

Jeder Knoten enthält zwischen d und 2d Einträge (d heißt Ordnung des Baumes, Wurzel ist Ausnahme)

Funktionsaufruf search(k) bestimmt Blatt, das potentielle Treffer für eine Suche nach Elementen mit Schlüssel k enthält

Funktionsaufruf search(k) bestimmt Blatt, das potentielle Treffer für eine Suche nach Elementen mit Schlüssel k enthält

B+-Baum soll nach Einfügung balanciert bleiben

B+-Baum soll nach Einfügung balanciert bleiben

Algorithmus für insert(k, p) für Schlüsselwert k und Datenseite p

Einfügung eines Eintrags mit Schlüssel 4222

Einfügung eines Eintrags mit Schlüssel 4222

Einfügung eines Eintrags mit Schlüssel 4222

Einfügung eines Eintrags mit Schlüssel 4222

Einfügung eines Eintrags mit Schlüssel 6330

Einfügung eines Eintrags mit Schlüssel 6330

Einfügung eines Eintrags mit Schlüssel 6330

Einfügung eines Eintrags mit Schlüssel 6330

Einfügung von 8180, 8245...

Einfügung von 8180, 8245...

Nach 8180, 8245, füge 4104 ein

Nach 8180, 8245, füge 4104 ein

Aufspaltung von Knoten 3 und 9

Knoten 1 läuft über  Aufspaltung

Neuer Separator für Wurzel

Separatorschlüssel aus inneren Knoten können sich verschieben

Aufspaltung beginnt auf Blattebene und verläuft nach oben solange Indexknoten vollständig belegt

Aufspaltung beginnt auf Blattebene und verläuft nach oben solange Indexknoten vollständig belegt

Schließlich kann die Wurzel aufgespalten werden

Nur Wurzelknoten mit Füllgrad < 50% möglich

Erhöhung nur bei Einfügung einer neuen Wurzel

insert(k, rid) wird von außen aufgerufen

insert(k, rid) wird von außen aufgerufen

Blattknoten enthalten Rids, innere Knoten enthalten Zeiger auf andere B+-Baum-Knoten

Falls Knoten genügend gefüllt (mindestens d+1 Einträge), Eintrag einfach löschen

Falls Knoten genügend gefüllt (mindestens d+1 Einträge), Eintrag einfach löschen

Sonst verschmelze Knoten wegen Unterfüllung

Leider ist die Situation nicht immer so einfach

Leider ist die Situation nicht immer so einfach

Verschmelzung nur, wenn Nachbarknoten zu 50% voll

Sonst muss Neuverteilung erfolgen

Implementierungen verzichten auf die Kosten der Verschmelzung und der Neuverteilung und weichen die Regel der Minimumbelegung auf

Implementierungen verzichten auf die Kosten der Verschmelzung und der Neuverteilung und weichen die Regel der Minimumbelegung auf

Beispiel: IBM DB2 UDB

Zur Verbesserung der Nebenläufigkeit evtl. nur Markierung von Knoten als gelöscht (keine aufwendige Neuverzeigerung)

Drei Alternativen

Drei Alternativen

Vollständiger Datensatz k* (ein solcher Index heißt geclustert, siehe unten)

Ein Paar , wobei rid (record ID) ein Zeiger auf einen Datensatz darstellt

Ein Paar , wobei alle Rids den Suchschlüssel k haben