Big Data & Data Mining

Mit Big Data Technologien für die Zukunft wappnen

Was ist Big Data und welche Ziele verfolgen wir?

Big Data bezeichnet primär die Verarbeitung von großen, strukturierten und unstrukturierten, komplexen und sich schnell ändernden Datenmengen. Ziel ist es, einen hohen Grad an Datenqualität zu sichern, um versteckte Muster, unbekannte Korrelationen und andere nützliche Informationen zu entdecken und daraus einen wirtschaftlichen Vorteil zu generieren.

Klassische relationale Datenbanksysteme sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data Technologien kommen daher neue Arten von Datenspeicher- und Analyse-Systemen zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeiten.

Die Herausforderungen von Big Data:

  • Verarbeitung vieler Datensätze
  • Verarbeitung vieler Spalten innerhalb eines Datensatzes
  • Schneller Import großer Datenmengen
  • Sofortige Abfrage importierter Daten (Realtime Processing)
  • Kurze Antwortzeiten auch bei komplexen Abfragen (Latenz und Verarbeitungsdauer)
  • Möglichkeit zur Verarbeitung vieler gleichzeitiger Abfragen (Concurrent Queries)
  • Analyse verschiedenartiger Informationstypen
    (Zahlen, Texte, Bilder, …)

Unter Data Mining versteht man die systematische Anwendung statistischer Methoden auf große Datenbestände mit dem Ziel, neue Querverbindungen und Trends zu erkennen.

Data Mining ist eng verwandt mit Machine Learning. Bei Data Mining liegt der Fokus auf dem Finden neuer Muster in Datenbeständen, wobei beim maschinellen Lernen primär bekannte Muster in neuen Daten wiedererkannt werden sollen.
 

Typische Aufgabenstellungen des Data Mining

  • Ausreißer-Erkennung: Identifizierung von ungewöhnlichen Datensätzen: Ausreißer, Fehler, Änderungen
  • Clusteranalyse: Gruppierung von Objekten aufgrund von Ähnlichkeiten
  • Klassifikation: bisher nicht Klassen zugeordnete Elemente werden den bestehenden Klassen zugeordnet
  • Assoziationsanalyse: Identifizierung von Zusammenhängen und Abhängigkeiten in den Daten
  • Regressionsanalyse: Identifizierung von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen
  • Zusammenfassung: Reduktion des Datensatzes in eine kompaktere Beschreibung ohne wesentlichen Informationsverlust

Text Mining ist eine wichtige Sonderform des Data Mining

Text Mining ist eine Sonderform des Data Minings. Es teilt die grundsätzlichen Verfahren des Data Minings zur Informationsgewinnung, wird aber nicht auf strukturierte Daten, sondern auf hauptsächlich unstrukturierte Textdaten angewandt. Mithilfe des Text Minings lässt sich Wissen aus Textdaten extrahieren. Dem Anwender werden automatisch die Kernaussagen von großen Textmengen geliefert, ohne dass ein detailliertes Befassen mit den einzelnen Texten notwendig ist. Beispielsweise können große Mengen von Fachartikeln mit dem Text Mining nach Informationen untersucht werden, die für eigene Projekte von Relevanz sind. Da ein hoher Prozentsatz aller Informationen in einem Unternehmen in Textform vorliegt, ergibt sich für das Text Mining daher ein sehr großes und wichtiges Anwendungsgebiet.

Wir garantieren Ihnen eine individuelle Beratung.
Treten Sie mit uns in Verbindung. Wir freuen uns auf Sie.

services@remove-this.emano-​development.de
+49 (0) 8252 9105-0