Welche Daten sollen in die Cloud?

Einerseits wirkt hier natürlich der Preisverfall der letzten Jahre im Festplattenbereich als Katalysator. Andererseits konnte man einen kontinuierlichen Anstieg der zu verwaltenden Datenmengen beobachten und vordergründige Kosteneinsparungen (CapEx) kommen nun als steigende Speicher-Verwaltungskosten (OpEx) oder sinkende Backup-/Restore-Fenster durch die Hintertür wieder herein. Dies alles ist nicht neu und die Rechenzentren schlagen sich damit seit Jahren herum.
Mit Cloud-Computing und DaaS (Data Storage as a Service) soll nun alles einfacher, preiswerter und effizienter werden. Mitnichten: Ohne eine vernünftige Strategie zur Anbindung und im nächsten Schritt zur Integration von internen IT-Services mit Private- und Public-Clouds (so genannten hybriden Cloud-Modellen) wird sich eine schnelle Umsetzung und damit der erhoffte ROI nicht einstellen. Das war übrigens auch schon bei den Anfängen von Outsourcing in diversen Großprojekten festzustellen, weshalb der Trend heute zum messbaren selektiven Outtasking geht, besser bekannt als BPO; Beispiel: Archiving oder Backup-/Desaster Recovery Services. Hier kann Cloud-Computing gerade für viele Mittelständler in Deutschland ein interessantes Geschäftsmodell vorweisen und damit wahrnehmbare Wertschöpfung erzeugen.
Strategie und Business Case klären
Der potentielle Nutzen von Cloud Computing im Kontext von Storage-Services, also die flexible Bereitstellung neuer Services, pay per use, die Entkopplung von Technologieentwicklungen, niedrigere Betriebskosten, Skalierbarkeit etc., wird sich für die Unternehmen also nur dann einstellen, wenn vorher entsprechende Strategien und der Business Case gründlich ausgearbeitet werden. Dabei kommt es auf die unternehmerische Zielsetzung, rechtliche Aspekte, SLAs, Datenschutz, Sicherheit, Exit-Strategie und vieles mehr an.
Mögliche negative Implikationen bei Hybrid- und Public Cloud-Angeboten können für Unternehmen auf der IT-Infrastukturseite vielfältig und komplex ausfallen. Stichworte hier: Fehlende Standards, Zugriffsrechte-/Zeiten, Netzwerkperformance, Datenmigrations-Aspekte (Zeit, Mengengerüst, Kosten) oder Applikationsperformance und -verfügbarkeit.
Daten nicht länger als notwendig aufbewahren
Treibende Faktoren für Storage-Clouds: Die unkontrollierte Vorhaltung von Daten treibt die Speicherkosten der Unternehmen in die Höhe, lässt Restore-Probleme entstehen und erschwert e‐Discovery-Prozesse. Aktuelle Storage-Studien zeigen, dass circa 75 Prozent der als Backup gespeicherten Daten auf unbestimmte Zeit aufgehoben werden. Backups dienen aber eigentlich nicht dazu, für mehr als 60 Tage gespeichert zu werden. Archive dagegen sind für die Langzeitspeicherung konzipiert, das heißt alle anderen Informationen sollten konsequenterweise gelöscht werden. Eigentlich ideale Voraussetzung gerade für viele mittelständische Unternehmen mit begrenzten IT-Ressourcen, auf Cloud-Angebote zu setzen.
Die Schwierigkeit liegt aber wie so oft im Detail: Welche Daten können in die Cloud migriert werden und welche sollten wirklich sicher gelöscht werden? Fragestellungen, die für viele Unternehmen auf Grund fehlender Werkzeuge beziehungsweise des rasch wachsenden Datenvolumens heute nicht einfach und vor allem schnell zu beantworten sind.
Aus Storage-Sicht jedenfalls können Unternehmen die zu verwaltenden Datenmengen und damit Kosten erheblich reduzieren, wenn sie Maßnahmen ergreifen, mit denen sie Files nicht länger als notwendig aufbewahren – bestimmte Datentypen, wie zum Beispiel Verträge oder Bestellungen, müssen über mehrere Jahre aufbewahrt werden, andere können früher gelöscht werden.
Weitere Probleme betreffen den Schutz von sensiblen Daten in der Cloud, oder wie bereits angesprochen: Was soll in die Cloud? Die Datenklassifizierung betrifft dabei im wesentlichen den stark wachsenden Bereich der unstrukturierten Dateien im Unternehmen. Diese werden im Idealfall automatisch nach Geschäftskontext oder Erstellungsprozess bewertet und anschließend über Archivdaten mit der Information in Kontext gesetzt. Selbstverständlich wird die Datenklassifizierung aber auch bei strukturiertem Content in Datenbanken angewendet. Ziel ist es hier, die richtigen Daten auf dem jeweils geeignetsten Storage-Medium zu platzieren (Storage Tiering), um beispielsweise I/O-Performanceaspekte, Zugriffszeiten und Speicherkosten zu adressieren.
Verfahren zur Datenklassifizierung
Datenklassifizierung kann mehr storage-nah (Information-Lifecycle-Management, d.h. datenzentrisch) oder anwendungsnah (Content-/Document-Management, d.h. applikations-/informationszentrisch) betrachtet werden und stellt eine wichtige Voraussetzung für Enterprise Content Management, E-Mail-Archiving oder E-Discovery-Prozesse dar. Man unterscheidet drei Verfahren:
a) Manuell
b) Regelbasiert
c) Kontextbasiert
Die manuelle Auswertung ist auf Grund der Datenvielfalt- und Mengen teuer (Faktor 10 – 20) und daher wenig praktikabel. Den automatisierten Verfahren gehört demnach die Zukunft.
Aspekte wie Security, Regelkonformität, Zugriffsrechte, Speicherzeiten sind unternehmenspezifisch zu werten, je nach Anwendungen und Branchen, weshalb Daten- und Informationsklassifizierungs-Projekte in der Praxis neben der entsprechenden Software meist den Einsatz von Professional Services bedingen.
Backup-Recovery, Archive oder E-Mails sind jedenfalls aus Storage-Sicht ideale Anwendungen für die Klassifizierung, da hier der Anteil an redundanten Daten sehr hoch ist und damit meist auch der Leidensdruck. Hilfreich ist in diesem Zusammenhang die Anwendung von Technologien wie Daten-Deduplizierung oder intelligente Komprimierung zur weiteren Kapazitätsoptimierung.
Norbert E. Deuschle ist unabhängiger Analyst, Industrieexperte und Betreiber des Storage Consortiums, das technisches und wissenschaftliches Wissen für IT-Organisationen und Unternehmen bereitstellt – vor allem zum Thema Storage, aber auch zu Netzwerk- und Server-Infrastrukturen sowie Cloud-Services.