Software für Data-Mining

Informationsgold in der Datenmine

Data-Mining bezeichnet jeden Vorgang, der kritische Informationen aus
zahlreichen Daten zutage fördert. Diese Leistung wird von meist
automatisierten Methoden erbracht, die ihre Grundlagen in der
Mathematik haben. Um interessante Muster in einer großen Datenmenge
schnell und zuverlässig zu erkennen, müssen diese Verfahren effizient
mit der Rechenleistung und dem Speicher einer Datenverarbeitungsanlage
umgehen.

Dazu wird die Beschreibung einer praktischen Problemstellung zunächst
einer Vorverarbeitung zugeführt, um auf dem Resultat Data-Mining
betreiben zu können. Während dieser Gesamtprozess als
Wissensentdeckung in Datenmengen verstanden wird, meint „Data-Mining“
speziell die mustererkennende Analyse der vorbereiteten Datensammlung.

Weiche Werkzeuge für harte Daten

Software für „Data-Mining“ existiert in zahllosen Ausprägungen, die sich
aus verschiedenen Zielsetzungen und aus entsprechenden Kreuzungen von
Prinzipien der Mustererkennung ableiten.

Clustan etwa kreist um die Erkennung von Clustern, also
Datenhäufungen, mittels statistischer Verfahren.

Ein verwandter Ansatz hat zu ELKI geführt, einer Umgebung
(„Environment“), die Wissensentdeckung („Knowledge Discovery“) über
Indizes der betrachteten Daten betreibt. Hier interessiert
besonders die Erkennung von Ausreißern, also Datenpunkten, die gerade
nicht gut zu einem etablierten Cluster passen.

Solche Datenhäufungen spielen in vielen Verfahren des Data-Minings
eine wesentliche Rolle, weil ein Muster eine ungleichmäßige
Verteilung von Datenpunkten darstellt.