Data Mining
Aus ControllingWiki
Inhaltsverzeichnis
Was versteht man darunter?
Mit Hilfe des Data Mining sollen wertvolle, nicht offensichtliche Informationen in großen Datenbeständen entdeckt werden, um Entscheidungen zu unterstützen. Das bedeutet, Data Mining ist ein Prozess der Auswahl, Erklärung und Modellierung großer Datenmengen, um vorher unbekannte Zusammenhänge zu finden.
Die in Unternehmen gesammelte und gespeicherte Datenmenge nimmt ständig zu. Es wird geschätzt, dass sich die weltweit vorhandene Informationsmenge alle 20 Monate verdoppelt. Die Nutzung von elektronischen Erfassungssystemen wie z.B. Scannerkassen sowie der Einsatz von immer leistungsfähigeren Speichermedien fördert diese Entwicklung. Allerdings wird es mit steigender Datenmenge schwieriger, nützliche Informationen zu finden. Daher müssen die riesigen Datenmengen analysiert werden, um ihre Bedeutung zu ermitteln.
Abb. 1: Notwendigkeit von Data Mining
Definition und Einordnung
Der Begriff Data Mining wurde 1996 von Fayyad, Piatetsky-Shapiro und Smyth geprägt. Data Mining ist danach ein Teil des Knowledge Discovery in Databases (KDD). Das KDD umfasst den gesammten Prozess der (semi-)automatischen Extraktion von Wissen aus Datenbanken, während sich das Data Mining als Teilprozess mit der Auswertung und Analyse von Daten beschäftigt.
Abb. 2: Prozessmodell Knowledge Discovery in Databases (KDD)
Bedeutung und Praxisbeispiele
Data Mining gewinnt im Marketingbereich zunehmend an Bedeutung. Anhand der Analyse und Interpretation von Kundendaten (Alter, Geschlecht, Adresse, Beruf, Freizeitbeschäftigungen, Zahl und Art der erworbenen Produkte und Dienstleistungen usw.) lassen sich äußerst wirksame Werbestrategien entwickeln und Marktsegmente bestimmen. Hauptsächlich aus diesem Grund nehmen auch die Bonus- und Kundenkartenprogramme stark zu. Neben der Kundenbindung bieten Programme wie HappyDigits, Pay Back etc. den teilnehmenden Unternehmen den Nutzen, kundenbezogene Daten beim Einkauf zu erhalten. Die Scannerkasse liefert die artikelbezogenen Daten und die Kundenkarte die kundenbezogenen Daten.
Dadurch können einzelne Daten, die für sich genommen kaum oder begrenzten Informationswert haben, zusammengeführt und zueinander in Beziehung gesetzt werden, um Rückschlüsse auf das Kaufverhalten zu ermöglichen und detaillierte Kundenprofile zu erstellen.
Durch Analyse dieser Datenbeziehungen könnte zum Beispiel ein Supermarkt feststellen, dass 80 % der Frauen zwischen 25 und 35 Jahren beim Kauf einer Zeitschrift gleichzeit auch Chips oder ähnliche Snacks kaufen. Durch diese Information könnte sowohl die zielgruppenspezifische Werbung als auch die Produktplatzierung optimiert werden.
Versicherungsunternehmen setzen Data Mining ein, um die Cross-Selling-Wahrscheinlichkeit bei Kundengruppen zu analysieren. Wie hoch ist die Wahrscheinlichkeit, dass Männer zwischen 30 und 40 Jahren neben einer Berufsunfähigkeitsversicherung auch eine Lebensversicherung abschließen? Ist die Wahrscheinlichkeit ausreichend hoch, können darauf abgestimmte Vertriebsaktivitäten gestartet werden. Weitergehend lassen sich auch Vorhersagen über den küftigen Wert eines Kunden (Customer Lifetime Value) treffen.
Die so genannte Outlier Detection kann z.B. für die Betrugserkennenung verwendet werden. Welche Gemeinsamkeiten weisen Kunden auf, die ihre Autoversicherung für Betrügereien nutzen? Telekomunikationunternehmen analysieren ihren Datenbestand, um herauszufinden, welche Kundengruppen für neue Dienstleistungen und Produkte am interessantesten sind. Besteht ein Zusammenhang zwischen der Anzahl der monatlichen SMS eines Kunden und seiner Bereitschaft, ein Fotohandy zu kaufen?
Auch im technischen Bereich wird Data Mining zunehmend eingesetzt. Bei einem an der Universität Helsinki entwickelten System wird die zeitliche Abfolge von Alarmen in einem Telekommunikationsnetzwerk analysiert. Jede der zahlreichen Komponenten eines solchen Netzwerks kann in gewissen Situationen Alarm schlagen, was 200 bis 10.000 mal pro Tag vorkommen kann. Das Telecommunication Network Alarm Sequence Analyzer (TASA) System sucht nach Regeln, die aus der Abfolge von Alarmen das Auftreten weiterer Alarme vorhersagen können.
Data Mining kann zudem die Wissensgewinnung aus Texten oder Dokumenten im Internet oder auf internen Servern unterstützen. Die Dokumente können damit automatisch klassifiziert werden. In diesem Zusammenhang spricht man auch von Text Mining oder Web Mining.
Praxis-Tipp
Data Mining muss immer auch unter dem Kosten-Nutzen-Gesichtspunkt betrachtet werden. Der Wert der gewonnenen Informationen muss die entstandenen Kosten deutlich übersteigen. Nur dann sind diese Informationen wertvoll. Versuchen Sie, die Informationen zu bewerten, um die Rentabilität von Data-Mining-Projekten beurteilen zu können.
Die Anwendung von Mustern
Ziel des Data Mining ist es, Wissen aus den zur Verfügung stehenden Daten zu gewinnen. Im Zusammenhang mit Data Mining versteht man im Allgemeinen unter Wissen:
Muster, die bestimmte zusätzliche Eigenschaften aufweisen und in einer formalen Sprache dargestellt werden.
Die am häufigsten verwendeten Muster sind:
- Cluster
- Regeln
- Klassifikation
- Abhängigkeitsmuster
- Verbindungsmuster
- Zeitliche Muster
- Formeln und Gesetzmäßigkeiten.
Abb. 3: Beispiele für Muster
Methoden und Techniken
Es gibt eine Vielzahl von Methoden, Techniken und Algorithmen zum Finden solcher Muster in Datenbeständen. Viele Methoden kommen ursprünglich aus dem Bereich des maschinellen Lernens, aber auch statistische Methoden und interaktive Analysen mittels Visualisierungsmethoden werden verwendet.
Sehr häufig eingesetzte Methoden sind zum Beispiel:
- Regressionsmodelle
- Entscheidungsbäume
- Neuronale Netze
- Faktorenanalyse
- Zeitreihenprognose
- Verbindungsanalyse.
Welche Methode eingesetzt wird, hängt sehr stark von der Art der zu findenden Muster ab. Mittlerweile bieten auch Standard-Software-Tools wie der Enterprise Miner der Firma SAS eine große Methodenvielfalt.
Praxis-Tipp
Bei all diesen technischen Möglichkeiten und Methoden steht doch beim Data Mining der Mensch im Mittelpunkt. Es bedarf großen Fingerspitzengefühls und Wissens des Data-Mining-Experten, um zu entscheiden, welche Methode in welcher Situation einzusetzen ist oder wie Unterschiede in den Ergebnissen zwischen verschiedenen Methoden zu bewerten sind.
Literaturtipps
Ester, M.; Sander, J.: Knowledge Discovery in Databases: Techniken und Anwendungen, Springer Verlag, 2000.
Alpar, P.; Niedereichholz, J.: Data Mining im praktischen Einsatz, Vieweg Verlagsgesellschaft, 2000.
Otte, R. u.a.: Data Mining für die industrielle Praxis, Hanser Fachbuchverlag, 2003.
Link
Ersteinstellender Autor
Stefan Heindl