Feb
22
2012

Deduplizierung von Daten zur besseren Bandbreitenausnutzung

Deduplizierung ist in der IT-Branche ein Prozess, der redundante Daten, also Daten, die mehrmals vorhanden sind, erkennt und löscht, bevor diese kopiert werden. Bei 300 GB Datenmenge würden deduplizierte Daten weitere 600 GB ausmachen. Bei einer Downloadrate von 16 Mbit/s dauert das herunterladen der Gesamtdatenmenge von 900 GB ca. 83 Stunden. Die normale Datenmenge würde nur ca. 27 Stunden dauern. Die Vorteile liegen auf der Hand: Der Zeitverlust wird so gering wie nur möglich gehalten und es bleibt mehr Speicherplatz für wirklich wichtige Daten.
Der Prozess presst wie vergleichbare Verfahren die Datenmenge, die von A nach B geschickt wird, zusammen. Es ist kaum möglich, die Effizienz des Prozesses vorherzusagen, da es immer von Datenstrukturen und Änderungsraten abhängig ist. Deduplizierung ist zurzeit jedoch die beste Art, unverschlüsselte Daten zu verkleinern
Das hauptsächliche Einsatzgebiet der Deduplizierung sind Backup-Solutions, bei denen sich praktisch realistische Datenkompressionen von 1:12 erzielen lassen. Dieses Verfahren ist jedoch eher für jeden Einsatzfall geeignet, bei dem Daten mehrfach kopiert werden.
Jedoch handelt es sich nicht mehr zwingend um voneinander unabhängige Vollsicherungen, das heißt, dass ein Verlust einer Datenversion zu erheblichem Datenverlust führt.
Methoden:
Es gibt verschiedene Methoden für die Erzeugung eines Datei-Bauplanes.
“Reverse-Referencing” : Das erste gemeinsame Element wird gespeichert und alle weiteren gleiche Elemente erhalten einen Pfad auf das oben genannte erste Element.
“Forward-Referencing” Der jeweils zuletzt aufgetretene gemeinsamen Datenblock wird abgelegt und „beglaubigt“ die vorher aufgetretenen Elemente. Es wird diskutiert, bei welcher Methode Daten schneller verarbeitet sowie wiederhergestellt werden können. Wie oben bereits aufgeführt ist dies das Hauptkriterium, da man durch die Methoden unter anderem eine Menge Zeit sparen will.
Andere Vorgehensweisen, wie beispielsweise “Inband” und “Outband” wetteifern darum, ob der Datenstrom, der sogenannte Daten-Traffic im laufenden Betrieb analysiert werden kann oder erst dann nachdem die Daten am Zielort gesichert worden sind. Bei der ersten Methode (Inband) darf nur ein Datenstrom vorhanden sein, bei der zweiten Methode (Outband) sollten die Daten durch mehrere Datenströme gleichzeitig untersucht werden können.
Deduplizierungs-Systeme arbeiten verschieden als herkömmliche Kompressionsverfahren, die nicht viele Vergleichsmuster benutzen und zwar auf dem sog. “Blocklevel”, das heißt, die Dateien werden als in eine Menge Blöcke gleicher Größe zerlegt angesehen. Je genauer die Veränderungen einer Datei bestimmt werden können, umso weniger muss redundant gespeichert werden. Dadurch vergrößert sich jedoch der Index, der sogenannte der Bauplan, wie und vor allem aus welchen Bestandteilen die gespeicherte Datei beim Wiederherstellen wieder zusammengesetzt werden kann. Die Methode der Identifikation von gemeinsamen Blöcken ist somit auch von entscheidender Wichtigkeit.

Keine Kommentare »

RSS feed for comments on this post. TrackBack URL


Sag was dazu

TheBuckmaker.com Wordpress Themes | , Free Audio