Digitalisierung, Internet of Things, Big Data und Industrie 4.0 machen es möglich: Es gibt immer mehr Daten. Gleichzeitig wird es umso schwieriger die Datenmengen ohne Automation zu nutzen. Unterstützung dabei bietet Machine Learning: Es hilft, Daten hochwertig zu analysieren und bessere Entscheidungen zu treffen.
Daten gelten als die Währung unserer Zeit. Laut einer Studie des Festplattenherstellers Seagate und dem IT-Marktforschungsunternehmen IDC wurden im Jahr 2016 noch weltweit 33 Zettabyte (eine 33 mit 21 Nullen) Daten gesammelt, bis 2025 wird sich diese Zahl auf 175 Zettabyte verzehnfachen. Dabei werden sich vor allem auch die Datenquellen ändern: Während 2015 noch 70 Prozent aller Daten von Privatnutzern generiert wurden, werden Unternehmen 2025 mehr als die Hälfte der Daten generieren. Das heißt, in Zukunft gibt es noch mehr Daten und eine Verschiebung der Datenquellen findet statt: Doch wie können Unternehmen nun die Währung unserer Zeit für sich nutzen?
80:20 für die Datenaufbereitung
Diese Unmengen an Daten müssen von Daten Analysten zuerst durchsucht und aufbereitet werden, bevor eine automatisierte Nutzung überhaupt möglich ist. Da nicht nur die Menge umfangreicher geworden ist, sondern auch die Daten an sich immer komplexer werden, werden heute 80 Prozent der Arbeitszeit von Analysten für die Datenaufbereitung verwendet, während 20 Prozent für die Predictor Modellierung verwendet werden. Dabei beschreibt Predictor Modellierung den Vorgang, das am besten geeignete ML Verfahren für die Problemstellung zu finden.
Das ungünstige Verhältnis wird sich in Zukunft immer weiter negativ verschieben und der eigentliche Wert der Daten kann für das Unternehmen gar nicht mehr genutzt werden. Die Lösung dafür ist Machine Learning: "ML automatisiert Kompetenz“, sagt Roman Ernst, Machine Learning Experte bei solvatio. "Dadurch ermöglicht ML die Automatisierung von Aufgaben und Prozessen, die ohne ML nicht oder nur mit viel mehr Aufwand automatisierbar wären." Ergänzend meint er, dass der Nutzen aber bereits schon ohne Prozessoptimierung sehr hoch ist.
Einsatz von ML: Mehr Zeit für wertbringende Arbeit
Mit ML müssen keine Programme mehr geschrieben werden. Algorithmen lösen Probleme selbstständig, können Muster erkennen und können auf deren Basis Vorhersagen erstellen. Dabei ist es wichtig, die Problemstellung schon vorher möglichst gut zu verstehen. Das gilt als eine der wichtigsten Voraussetzungen, um ML getriebene Usecases erfolgreich umsetzen zu können. Doch wie kann eine Datenanalyse mit ML für Unternehmen wertschöpfend umgesetzt werden?
Machine Learning geht dabei immer ähnlich vonstatten. Deshalb gibt es mehrere Vorlagen, wie der Workflow einer Datenanalyse mit ML aussehen könnte. Wie das im Detail funktioniert, lesen Sie bei Informatik-Aktuell.
Das Modell beschreibt den komplexen Machine Learning Prozess in vereinfachter Form.
- Raw Data Collection: An Anfang des Machine Learnings steht immer das Sammeln der Daten. Dazu müssen sich Unternehmen zunächst bewusst werden, ob und wo sie bereits Daten sammeln und diese auch analysieren.
- Preprocessing: Die Qualität der Daten hat erheblichen Einfluss auf die Qualität der Ergebnisse. Deshalb müssen die Ergebnisse vorverarbeitet werden, um Datenfehler, fehlende Werte und Ausreißer zu finden.
- Sampling: Datenproben werden genommen, um sie in zum Training, zur Validation und zum Testen zu verwenden.
- Model Training und Model Evaluation: Im Anschluss daran werden die Daten genutzt, um mithilfe eines Algorithmus ein Modell zu erstellen. Dieses wird anschließend noch einmal evaluiert.
- Deployment: Das Modell wird für Anwendungsfälle eingesetzt.
Sind alle Schritte des Modells im Unternehmen implementiert und durchlaufen, profitiert es von den Möglichkeiten der Prozessautomation: Data Analysten können sich auf Ihre eigentliche Aufgabe konzentrieren und den Wert der vorhandenen Daten ausschöpfen. Denn die Daten allein sind noch keine Währung. Erst wenn die Informationen innerhalb der Daten miteinander kombiniert werden, sind sie wirklich wertschaffend für ein Unternehmen.
Zusammenfassung:
- Die Datenmengen nehmen immer stärker zu und bis 2025 werden Unternehmen mehr als die Hälfte der weltweiten Daten generieren.
- Daten können mit Machine Learning verwaltet und optimiert werden und Aufgaben und Prozesse automatisiert.