Die Big Data-Explosion von Barbara Murphy, Chief Marketing Officer, Panasas

„Big Data“ (große Datenmengen) sind weiterhin ein wichtiges Diskussionsthema für die hochleistungsfähige Speicherindustrie und ein Punkt ist ganz klar: Big Data bedeutet mehr als Analytik! Für Big Data gibt es vier separate Use-Cases: Konzeption (technische Automatisierung), Forschung (Kernsimulation), Ablage (Inhalt und Web 2.0) und Entscheidung (nicht-relationale Analytik). Die Medien haben sich bisher hauptsächlich für die „Entscheidung“ interessiert, aber die Use-Cases für „Konzeption“ und „Forschung“ sind genauso wichtig und in einigen Aspekten besser am Markt etabliert.

  • Thursday, 30th May 2013 Posted 11 years ago in by Phil Alsop

Technologieanforderungen für Big Data weichen erheblich von traditionellen Enterprise-Anwendungen ab, da ihre Datenmengen unvorhersehbar sind und mit einer exponentiellen Rate wachsen. Folglich belasten Big Data-Workloads traditionelle Speicherarchitekturen, die nicht für diese Arten von Workflows konzipiert wurden. Was stattdessen erforderlich ist, ist eine nahtlose Scale-out-Speicherarchitektur, die diese neuen Arten von Datenmengen aufnehmen kann. Ebenso wichtig ist, dass die Datenspeicherung zusammen mit den Budgets wachsen muss, also nicht schneller als die Budgets, was oft bei traditionellen NAS- und SAN-Installationen der Fall ist.

Die Big Data-Explosion

Der Big Data-Markt steckt bezüglich seines erwarteten Wachstums über die nächsten paar Jahre noch in den Kinderschuhen. IDC prognostiziert, dass gespeicherte Daten jährlich mit einer mehr als 40-fachen Rate wachsen werden und dass bis 2020 über 15.000 Zettabyte (15 Milliarden Terabyte) erreicht werden.

Was treibt die Wachstumsexplosion an? Die Digitalisierung der bekannten physischen Welt, darunter die Digitalisierung von Büchern, Film, Radio, medizinischen Unterlagen und historischen Dokumenten, ist ein wesentlicher Faktor. Die Einbettung von Sensoren, verknüpft mit zentralisiertem Speicher, in die physische Welt ist ein weiterer Faktor. Physische sensorische Daten, manchmal als „das Internet der Dinge“ bezeichnet, generieren Exabyte neuer Daten, mit denen intelligente Entscheidungen getroffen werden können, die drastische Verbesserungen in unserem Verständnis unserer Umgebung ermöglichen. Beispiele hierfür sind RFID-Tags, Webkameras, „intelligente“ Zähler, die von Energieunternehmen verwendet werden, um aktuelle Informationen zu Stromspitzen zu erhalten, Straßensensoren, die Informationen zum Verkehrsfluss liefern, Maschinensensoren für die entfernte Überwachung und Wettersensoren, um Klimaänderungen genauer vorherzusagen.

Die Big Data-Herausforderung

Das Big Data-Phänomen hat den traditionellen Enterprise-Markt auf drei grundsätzlichen Ebenen herausgefordert:

Datenwachstum: Unternehmen sind jetzt mit einer Welt konfrontiert, in der eine zentralisierte Planung für Kapazitätswachstum kein tragfähiges Geschäftsszenario mehr ist. Angesichts der Unvorhersehbarkeit des Datenwachstums benötigen Unternehmen eine Strategie, die es ihnen ermöglicht, ihre Kapazität zusammen mit dem Datenwachstum zu erweitern, und nicht bevor dieses Wachstum eintritt. Der Kauf von Kapazität für die Provisionierung zu Spitzenzeiten funktioniert im Big Data-Kontext nicht, da er dem wirtschaftlichen Modell für Wertschöpfung zuwiderläuft. Dies gewährleistet, dass alle Daten in einem einzigen System enthalten sind, wodurch problematische Speicherinseln, die oft in älteren NAS-Architekturen anzufinden sind, eliminiert werden.

Datenleistung: Enterprise-Systeme wurden traditionell im Voraus für Spitzenleistung und Kapazität basierend auf dem erwarteten Bedarf provisioniert. Da die Mehrzahl der gespeicherten Dateien klein war (weniger als 4 KB), wurde die Architektur für IOPS-Leistung auf Kosten der Durchsatz- (oder Streaming-)Leistung optimiert. In der Big Data-Welt stellen alle Datenmengen gemischte Workloads dar, d. h. die Größe der einzelnen Dateien variiert erheblich von nur wenigen Byte bis zu Terabyte im zweistelligen Bereich.

Diese signifikante Mischung aus kleinen und großen Dateien ist eine große Herausforderung für die I/O-Leistung, da traditionelle Speichersysteme entweder für IOPS für kleine Dateien oder für Durchsatz-Raten für große Dateien, aber nicht für beide im selben System, optimiert wurden. Die Gesamtkapazität, die von all diesen kleinen Dateien belegt wird, stellt zwar typischerweise nur einen sehr kleinen Prozentsatz dar, aber die absolute Anzahl kleiner Dateien ist typischerweise sehr hoch, was erhebliche Auswirkungen auf die Gesamtleistung des Systems hat.

Datentyp: Die Datenmengen, die in Big Data-Anwendungen generiert werden, variieren erheblich in Bezug auf ihr Format: sie können beispielsweise Bilder, Video, Audio, Webseiten, Twitter-Feeds, sensorische Daten, Karten, E-Mail etc. sein. Big Data-Speichersysteme müssen daher in der Lage sein, viele verschiedene Dateiformate und -größen in einem einzigen System aufzunehmen.

HPC:  Der Big Data-Befähiger

Die mit Big Data verbundenen Herausforderungen sind nicht neu. Das Konzept der Nutzung großer Datenmengen zur Wertschöpfung besteht seit vielen Jahren, typischerweise in fortschrittlichen technischen Gruppen und Forschungslaboren. Traditionell als Hochleistungsrechnen (HPC, High Performance Computing) bezeichnet, boten Big Data erhebliche Fortschritte in der Mineralforschung, in den Werkstoffwissenschaften, der Genomik, der Hochenergiephysik-Forschung sowie in vielen anderen Workflows, in denen Computermodellierung eingesetzt wird.

                                                                                                 

Das Big Data-Phänomen gewinnt weiterhin an Boden, da das Kostenmodell für Computing eine größere Verarbeitungsleistung zu günstigeren Preisen geliefert hat. Fortschritte im Cluster-Computing (bei dem die Verarbeitungsleistung vieler kostengünstigerer Prozessoren in physisch separaten Computern aggregiert wird) und die Verfügbarkeit von Software, die eine parallele Verarbeitung ermöglicht, haben die Nutzung einer kostengünstigeren Infrastruktur sehr viel attraktiver gemacht.

Speicherarchitekturder nächsten Generation

Die HPC-Community hat eine entscheidende Rolle bei der Entwicklung von Rechen-, Netzwerk- und Speicherarchitekturen gespielt, die für einige Big Data-Workflows nutzbar sind. Bis jetzt haben Speicherarchitekturen jedoch nicht mit den Fortschritten Schritt gehalten, die vom geclusterten Computing in Enterprise-Umgebunden erzielt wurden.

Anspruchsvolle Big Data-Anwendungen erfordern einen gemeinsamen Zugriff auf Daten, und das Speichersystem muss einen hohen Grad an paralleler Leistung liefern, um die aggregierten Anforderungen Hunderter oder Tausender von Rechenknoten zu erfüllen, die Dateien von wenigen Kilobyte bis zu mehreren Terabyte verarbeiten.

Filesharing ist daher eine wesentliche Funktion, die von leistungsstarken Big Data-Systemen gefordert wird. Um einen gemeinsamen Dateizugriff bereitzustellen, ist ein zentrales Repository (ein sog. Metadatenserver) erforderlich, der den Überblick über jeden Block jeder Datei, die auf der Festplatte gespeichert ist, behält. Der Metadatenserver speichert auch Informationen darüber, welcher Rechenknoten innerhalb des Clusters auf welche Dateien zugreifen darf.

Da ältere NAS-Architekturen jedoch den Datenverkehr durch einen einzigen Metadatenserver und dann zur Festplatte leiten, entstehen erhebliche Leistungs- und Skalierbarkeitsengpässe.


 

Im Gegensatz dazu entfernen Scale-out-NAS-Systeme, die auf einem parallelen Dateisystem mit einer Objektspeicherarchitektur basieren, Metadatendienste vom I/O-Pfad, wodurch Rechenknoten direkt und parallel auf Speicherknoten zugreifen können. Das Ergebnis ist eine sehr hohe Leistung und eine einfache und massive Skalierbarkeit.

Lösung des Big Data-Dilemmas mit einem parallelen Dateisystem

Die ideale Speicherlösung für anspruchsvolle Big Data-Umgebungen besitzt eine Kombination aus Elementen, darunter eine parallele Speicherarchitektur, eine Solid-State-Drive- (SSD) Komponente zusammen mit drehenden Laufwerken und ein paralleles Dateisystem, die zusammen in der Lage sind, zusätzlich zur Skalierbarkeit, Verwaltbarkeit, Zuverlässigkeit und zum Wert eine unübertroffene Systemleistung zu liefern.

Scale-out-NAS-Systeme sind die flexibelsten Systeme in der Branche, da sie es ermöglichen, die Kapazität von Big Data-Umgebungen in Echtzeit und entsprechend dem Computing-Bedarf zu erweitern, wodurch Budgets intelligent genutzt werden können.

Zudem kann die Erweiterung der Kapazität und Leistung des Dateisystems innerhalb des globalen Namespaces, sobald mehr Speicher benötigt wird, nicht-disruptiv und einfach durch Hinzufügung neuer Speicherelemente zum System erfolgen.

Lassen Sie uns jetzt den Bedarf für Leistung betrachten. Eine weitere wichtige Leistung paralleler Speichersysteme ist die Entfernung des Metadatenservers vom Datenpfad. Hierdurch wird ein großer Leistungsengpass gelöst, der in traditionellen NAS-Architekturen anzufinden ist, und Kapazität und Leistung lassen sich somit leicht linear skalieren.  


 

Big Data-Anwendungen haben erhebliche Leistungsanforderungen; diese Leistung muss jedoch innerhalb eines wirtschaftlichen Modells geliefert werden, das den Wert der Daten gewährleistet. Scale-out-NAS-Systeme liefern ausgezeichnete Leistung zu einem erschwinglichen Preis, da sie die entsprechende Technologie für den jeweiligen Workload nutzen. Beispielsweise können hochkapazitive SATA-Laufwerke für große Dateien eingesetzt werden, während SSD-Technologie für die Beschleunigung der Leistung von kleinen Dateien und Metadaten für blitzschnelle Reaktionszeiten genutzt wird. Dieser Ansatz liefert einen attraktiven „Total Cost of Ownership“ und erfüllt gleichzeitig die Big Data-Anforderungen von selbst den I/O-intensivsten technischen Rechenanwendungen.