Daten | Data Basecamp

Egal, ob man Daten nun als das Gold oder das Öl des 21. Jahrhunderts bezeichnen will, sie sind nun mal essenziell wichtig für alle Machine Learning Anwendungen. Deshalb befassen wir uns in diesem Kapitel ausschließlich damit, wie wir eine gute Informationsbasis für unsere Modelle legen können.

Einige grundlegende Themen sind essenziell, um eine gute Infrastruktur für Machine Learning zu haben:

Beschaffung: Es gibt verschiedene System aus denen die Daten stammen können, beispielsweise aus internen oder externen Quellen. Dementsprechend kann auch der physische Zugang problematisch werden, wenn man nicht die nötigen Berechtigungen besitzt.
Qualität: Sobald die Informationen vorliegen muss überprüft werden, ob die Daten gewisse Voraussetzungen erfüllen, um für den Anwendungsfall nutzbar zu sein. Beispielsweise sollten die einzelnen Kategorien nicht zu viele fehlende Werte aufweisen.
Aufbereitung: Wenn die Datenqualität nicht ausreichend ist, gibt es verschiedene Methoden, um des Data Sets so aufzubereiten, dass er trotzdem genutzt werden kann. Darüber hinaus muss das Format (bspw. Zahlenformat oder die Länge von Texteingaben) vereinheitlicht werden auf die Form mit der das Modell arbeiten kann.
Speicherung: Wenn die Dateimenge eine gewissen Grenze überschreitet oder das Modell stetig mit aktuellen Informationen neu trainiert werden soll, reicht es nicht aus die Inputs in einer Datei vorliegen zu haben. Stattdessen sollte man dann auf eine Datenbanklösung zurückgreifen, um die Daten zentral verfügbar zu haben und sie auch performanter abfragen zu können. Je nach Art und Menge der Informationen, gibt es verschiedene Datenbanklösungen (bspw. MySQL).

Diese Themen sind deutlich umfassender als sie auf den ersten Blick erscheinen. Neben den verschiedenen Softwaremöglichkeiten, die in diesem Bereich angeboten werden, müssen wir auch statistisch bewerten können, welche Veränderungen wir vornehmen dürfen, um die Aussagekraft des KI-Modells nicht einzuschränken.

Einige unserer Beiträge im Bereich Daten

Was ist eine RESTful API?

9. März 2024

Erfahren Sie alles über RESTful APIs und wie sie Ihre Webentwicklungsprojekte effizienter und skalierbarer machen können.

Was sind Zeitreihendaten?

6. Januar 2024

Gewinnen Sie mithilfe von Analyse- und Prognosetechniken Erkenntnisse aus Zeitreihendaten. Entdecken Sie Trends und Muster!

Was ist ein Balkendiagramm?

30. Dezember 2023

Entdecken Balkendiagramme bei der Datenvisualisierung. Lernen Sie, wie man sie für aufschlussreiche Datenanalyse erstellt und anpasst.

Was ist ein Liniendiagramm?

6. Dezember 2023

Meistern Sie die Kunst der Liniendiagramme: Lernen Sie in unserem Leitfaden, wie Sie Trends und Muster visualisieren können.

Was ist Data Preprocessing?

2. Dezember 2023

Optimieren Sie Ihre Datenanalyse mit effektivem Data Preprocessing. Lernen Sie das Wesentliche in unserem Leitfaden zur Datenvorverarbeitung.

Was ist ein Kreisdiagramm?

29. November 2023

Visualisieren Sie Datenproportionen mit Kreisdiagrammen: Eine intuitive und effektive Methode, um die relative Verteilung zu verstehen.

Datensatzgröße für Machine Learning

Die These, dass Machine Learning nur mit sehr großen Data Sets auch gute Ergebnisse liefert, hält sich weiterhin hartnäckig. Obwohl es nicht von der Hand zu weisen ist, dass das Training von Modellen deutlich einfacher und mit weniger Vorarbeit verbunden ist, sind auch kleinere Datensätze kein Ausschlusskriterium, um Machine Learning zu betreiben. Dadurch kann man auch für Anwendungen, bei denen von Haus aus nur wenige Daten anfallen oder die Informationen erst seit kurzer Zeit gemessen und abgespeichert werden, gute und präzise Algorithmen programmieren.

Ein klassisches Beispiel dafür ist die Bilderkennung. Wenn wir ein Modell entwickeln wollen, das feststellt, ob in einem Bild ein Hund zu sehen ist oder nicht, werden wir sehr wahrscheinlich nicht darum herumkommen eine Vielzahl von Bildern vorher manuell zu labeln. Da dies nicht nur eine langweilige sondern auch sehr zeitaufwendige Arbeit ist, werden wir voraussichtlich nicht auf eine große Menge an beschrifteten Bildern zurückgreifen können. Trotzdem ist es nicht unmöglich mit den wenigen Bildern einen vergleichsweise robusten Algorithmus zu schreiben.

Das Bild zeigt verschiedene Menschen, die mit Daten (Data) arbeiten. — Informationsgetriebene Anwendungen im Internet

Möglich wird das durch sogenannte Data Augmentation Methoden. Dabei wird ein einzelnes Data Set so abgeändert, dass er als zwei, drei oder vier neue Data Sets genutzt werden kann. Dadurch blähen wir die Datensatzgröße künstlich auf. In unserem Beispiel mit den Hundebildern bedeutet das, dass wir ein Hundebild nehmen und daraus “neue” Bilder generieren, indem wir nur gewisse Bildausschnitte als neues Data Set nutzen oder das Bild um wenige Grad rotieren. Dadurch haben wir neue Datensätze generiert, von denen wir immer noch wissen, dass darin ein Hund zu sehen ist und aus denen das Machine Learning Modell trotzdem neue Schlüsse ziehen kann.

Zusammenfassung

Daten sind in unserer heutigen Zeit ein bestimmender Faktor. In unserem privaten Umfeld werden immer mehr private Informationen über Social Media oder anderen Online-Accounts erhoben. Im geschäftlichen Umfeld erfahren wir, dass auch deutlich mehr Daten als früher erhoben werden, um informationsgetriebene Entscheidungen zu treffen und die bisherige Zielerreichung überwachen zu können. Deshalb ist eine unverzichtbare Fähigkeit mit Fakten umgehen zu können.