Data-Mining

Abgrenzung von anderen Fachbereichen. Viele der im Data-Mining eingesetzten Verfahren stammen eigentlich aus der Statistik, insbesondere der multivariaten Statistik und werden oft nur in ihrer Komplexität für die Anwendung im Data-Mining angepasst, .

Beim Webmining geht es um die Analyse von verteilten Daten, wie es Internetseiten darstellen. Add-ins" option at the bottom of window.

absatzwirtschaft Newsletter schon abonniert?

Multiple Korrelation. Ähnlich wie Korrelationsanalyse, jedoch Erweiterung auf mindestens 3 (statt 2) Variablen. Im Unterschied zur Regressionsanalyse die Untersuchung des Zusammenhanges mehrerer gleichberechtigter Variablen; es gibt keine abhängige, vorherzusagende Variable.

The independent variable data columns MUST be adjacent one another for the input to occur properly. If you are using labels which should, again, be in the first row of each column , click the box next to "Labels". If you wish to change this value, click the box next to "Confidence Level" and modify the adjacent value. Select the desired options in the "Residuals" category. The Y axis can only support one column while the x axis supports multiple and will display a multiple regression.

Not Helpful 13 Helpful It is possible that one or more of your columns has numbers formatted as text, or there is actual text in those columns. Not Helpful 1 Helpful 0. How can I find the growth rate among several variables and their given outputs? Answer this question Flag as Where is the equation that describes the relationship of two independent variables?

This makes things very confusing. How do I interpret a multiple regression coefficient? Include your email address to get a message when this question is answered. Already answered Not a question Bad question Other. Microsoft Excel In other languages: Is this article up to date? Mit Hilfe dieser Ansätze wird sowohl die Analyse der Daten als auch beispielsweise deren Visualisierung durch Stichproben und geringere Komplexität vereinfacht. Während die meisten Data-Mining-Verfahren versuchen mit möglichst allgemeinen Daten umgehen zu können, gibt es auch Spezialisierungen für speziellere Datentypen.

Dies kann beispielsweise der Plagiats -Erkennung dienen oder um den Textbestand zu klassifizieren. Beim Webmining geht es um die Analyse von verteilten Daten, wie es Internetseiten darstellen. Durch die sich ständig ändernden Inhalte und die nicht garantierte Verfügbarkeit der Daten ergeben sich zusätzliche Herausforderungen.

Dieser Themenbereich ist auch eng mit dem Information Retrieval verbunden. Hier können mittels spezieller Distanzfunktionen wie der Dynamic-Time-Warping -Distanz bestehende Data-Mining-Verfahren verwendet werden, es werden aber auch spezialisierte Verfahren entwickelt. Eine wichtige Herausforderung besteht darin, Reihen mit einem ähnlichen Verlauf zu erkennen, auch wenn dieser etwas zeitlich versetzt ist, aber dennoch ähnliche Charakteristika aufweist.

Viele der Probleme bei Data-Mining stammen aus einer ungenügenden Vorverarbeitung der Daten oder aus systematischen Fehlern und Verzerrung bei deren Erfassung. Diese Probleme sind oft statistischer Natur und müssen bereits bei der Erfassung gelöst werden: Hier sind ähnliche Aspekte zu beachten wie bei der Erstellung einer repräsentativen Stichprobe. Die im Data-Mining verwendeten Algorithmen haben oft mehrere Parameter, die geeignet zu wählen sind.

Mit allen Parametern liefern sie gültige Ergebnisse, und die Parameter so zu wählen, dass die Ergebnisse auch nützlich sind, ist eine Aufgabe des Benutzers. Weiterentwickelte Methoden haben oft weniger Parameter oder diese Parameter sind leichter zu wählen. Die Bewertung von Data-Mining-Ergebnissen stellt den Benutzer vor das Problem, dass er einerseits neue Erkenntnisse gewinnen möchte, andererseits Verfahren dann nur schwer automatisiert bewerten kann.

Bei Prognoseproblemen wie der Klassifikation, Regressionsanalyse und Assoziationsanalyse lässt sich hier die Prognose auf neuen Daten zur Bewertung verwenden. Cluster werden meist intern oder extern bewertet, also anhand ihrer mathematischen Kompaktheit oder ihrer Übereinstimmung mit bekannten Klassen. Als statistische Verfahren analysieren die Algorithmen die Daten ohne Hintergrundwissen über deren Bedeutung.

Daher können die Verfahren meist nur einfache Modelle wie Gruppen oder Mittelwerte liefern. Oftmals sind die Ergebnisse als solche nicht mehr nachvollziehbar.

Data-Mining als wissenschaftliche Disziplin ist zunächst wertneutral. Die Verfahren erlauben die Analyse von Daten aus nahezu beliebigen Quellen, beispielsweise Messwerte von Bauteilen oder die Analyse von historischen Knochenfunden. Beziehen sich die analysierten Daten jedoch auf Personen, so entstehen wichtige rechtliche und moralische Probleme; typischerweise aber bereits bei der Erfassung und Speicherung dieser Daten, nicht erst bei der Analyse, und unabhängig von der konkret verwendeten Analysemethode Statistik, Datenbankanfragen, Data-Mining, ….

Daten, die unzulänglich anonymisiert wurden, können möglicherweise durch Datenanalyse wieder konkreten Personen zugeordnet deanonymisiert werden. Typischerweise wird man hier jedoch nicht Data-Mining einsetzen, sondern einfachere und spezialisierte Analysemethoden zur Deanonymisierung.

Eine derartige Anwendung — und vor allem die unzulängliche Anonymisierung zuvor — sind dann möglicherweise illegal nach dem Datenschutzrecht. So gelang es Forschern beispielsweise anhand weniger Fragen Nutzerprofile eindeutig in einem sozialen Netzwerk zu identifizieren. Ein zuverlässiger Schutz vor einer missbräuchlichen Analyse ist nur möglich, indem die entsprechenden Daten gar nicht erst erfasst und gespeichert werden.

Zudem eignen sich viele der Verfahren zur Überwachung und für eine fortgeschrittene Rasterfahndung. Data-Mining-Verfahren selbst arbeiten wertneutral und berechnen nur Wahrscheinlichkeiten, ohne die Bedeutung dieser Wahrscheinlichkeit zu kennen.

Werden Menschen jedoch mit dem Ergebnis dieser Berechnungen konfrontiert, so kann das überraschte, beleidigte oder befremdete Reaktionen hervorrufen. Daher ist es wichtig abzuwägen, ob und wie man jemanden mit derartigen Ergebnissen konfrontiert. Eine amerikanische Kaufhauskette kann aber anhand des Einkaufsverhaltens erkennen, ob eine Kundin schwanger ist. Selbst eine Vorhersage des Datums der Geburt ist so möglich.

Aufgaben- und anwendungsspezifische Literatur findet sich in den jeweiligen Artikeln. Knowledge Discovery in Databases. Ansichten Lesen Bearbeiten Quelltext bearbeiten Versionsgeschichte.