Data Science capstone Projekte unserer ersten Teilzeitklasse

von Marcus Lindberg

Data Science Capstone Projekte Teilzeit-Batch #1
Während des 22-wöchigen Teilzeit-Bootcamps hat unsere erste Data Science-Gruppe die folgenden Abschlussprojekte durchgeführt:

 

Zaamigo: AI-gesteuerte Zahnmedizin

Studenten: Martina Klose, Shih-Chi Yang
 

Zaamigo will einen künstlichen Zahnarzt zur Verfügung stellen, der Krankheiten jederzeit zu Hause vorbeugen, diagnostizieren und schliesslich behandeln kann. Um dieses Ziel zu erreichen, verkauft Zaamigo eine einfach zu bedienende, erschwingliche und dennoch professionelle Mundkamera, die mit einer mobilen App ausgestattet ist, die diese Bilder mithilfe von Deep Learning analysiert, um Zähne, Flecken und entzündetes Zahnfleisch zu identifizieren.
 

Um die Zahngesundheit analysieren zu können, ist die genaue Erkennung und Identifizierung einzelner Zähne von grösster Bedeutung. Daher optimierten Martina und Shih-Chi systematisch jeden Aspekt des Modelltrainings und implementierten eine bessere Berichterstattung über Metriken zur Bewertung der Modellleistung.
 

Zaamigo

Abbildung 1: Durch die Optimierung der Bildvergrösserungen und eine längere Trainingszeit des Modells auf den Daten konnte das Modell einzelne Zähne besser erkennen und gleichzeitig die Anzahl der falsch-positiven Ergebnisse in Hintergrundbildern reduzieren.
 

Die Optimierungen, die am meisten zur Verbesserung des Modells beitrugen, waren: 

  1. die Optimierung der Augmentierungen der Daten, die für das Training des Modells verwendet wurden, 
  2. eine längere Trainingsdauer des Modells und 
  3. die Identifizierung geeigneter Schwellenwerte mit dem besten Kompromiss zwischen falsch-positiven und falsch-negativen Klassifizierungen.

 

Contovista: Regionalität des Handels

Student: Ilario Giordanelli
 

Das Know-how von Contovista im Bereich des datengesteuerten, KI-gestützten Bankwesens gibt Einzelpersonen die Möglichkeit, ihre Ausgabengewohnheiten zu analysieren und zu verfolgen, um fundierte Entscheidungen zu treffen und ihre Finanzen zu verstehen und zu kontrollieren. Der Standort von Händlern, mit denen Transaktionen getätigt wurden, wäre ein leistungsfähiges Instrument für eine bessere Kategorisierung von Transaktionen für Unternehmen, um zu entscheiden, wo sie neue Filialen eröffnen sollten, und um anormale und betrügerische Transaktionen schnell zu erkennen. Leider sind die derzeitigen Transaktions-Metadaten recht begrenzt, denn nur bei 10 % der Transaktionen lässt sich der Standort ableiten.
 

Ilario hat Daten auf individueller Ebene in Daten auf Händlerebene umgewandelt, wobei jeder Händler individuelle Kunden und Transaktionen hat. Durch die Berechnung der Häufigkeit, mit der jede Person bei jedem Händler eingekauft hat, konnte die Kosinusähnlichkeit der Händler verglichen werden. Mit Hilfe des spektralen Clustering konnte Ilario die Regionalität der Händler auf Kantons- und Vorwahl-Ebene in einem halb-überwachten Ansatz rekapitulieren. 
 

Contovista
 

Abbildung 1. Händler, die geografisch näher beieinander liegen (nach Vorwahl), waren auch eher in der Lage, sich zu gruppieren, wenn man nur die Häufigkeit der Kundentransaktionen betrachtet. Einer der über 80 Cluster ist hier zu sehen (konzentriert um Bern).
 

Die Identität jedes Clusters kann anhand des höchsten Prozentsatzes von Händlern mit Standortdaten bestimmt werden. Der Rest der Händler in diesem Cluster kann dann auf die gleiche Region oder das gleiche Gebiet zurückgeführt werden. Dieser Ansatz ermöglicht die Anreicherung von Händlerinformationen, die zuvor fehlten oder nicht bekannt waren, insbesondere bei kleineren oder lokalen Händlern. Die Cluster geben auch Aufschluss über die Reisemuster von Einzelpersonen, bei denen sich möglicherweise unterschiedliche Verhaltensweisen feststellen lassen (z. B. Personen, die lieber in der Nähe einkaufen).

 

NLP für die Klassifizierung von Service-Portal-Vorfall-Anfragen

Student: Simon Zschunke
 

In Logistikunternehmen, die viele verschiedene Funktionen für unterschiedliche Branchen erfüllen, gibt es oft Serviceportale, die täglich eine grosse Anzahl von Störungsanfragen erhalten, die dann den entsprechenden Abteilungen zugewiesen werden müssen. Die Benutzer können zwar das Problem angeben, für das sie die Anfrage einreichen, aber es ist nicht ungewöhnlich, dass die Mitarbeiter solche Formulare falsch oder unzureichend ausfüllen. Um diese Anfragen besser einordnen und klassifizieren zu können, wollte Simon die Möglichkeiten der natürlichen Sprachverarbeitung nutzen, um ein Modell zu entwickeln, das dies ermöglicht.
 

Eine der Hauptschwierigkeiten liegt in der Art der Daten selbst: Es handelt sich um Textdaten, die aus E-Mails extrahiert wurden, die in ihrer Länge (von wenigen Wörtern bis hin zu langen Dokumenten) und Formalität (Abkürzungen und Emoticons) variieren und aufgrund von Dingen wie Unterschriften unterschiedliche Formatierungen enthalten. Nach einer umfangreichen Vorverarbeitung der Daten konnten Ähnlichkeiten berechnet und die Nachrichten verglichen und gruppiert werden.
 

NLP for Classifying Service Portal Incident Requests

Abbildung 1: Mithilfe von LDA (Latent Dirichlet Allocation) wurden mindestens vier diskrete Themen in den Nachrichten identifiziert, die dann bestimmten Unternehmensbereichen zugeordnet werden konnten, wobei das Thema Immobilien abgebildet wurde.
 

Auf der Grundlage des vorab trainierten BERT-Modells hat Simon das Modell für diese Aufgabe trainiert, fein abgestimmt und optimiert, sodass es in der Lage ist, die drei verschiedenen Kategorien (Prozessart, Gruppe, Verursacher des Vorfalls), die einen Vorfall beschreiben, mit einer Genauigkeit von 81 %, 98 % bzw. 90 % vorherzusagen. 
 

Sowohl Oversampling als auch Subsampling wurden eingesetzt, um die Klassifizierung von weniger häufigen Kategorien zu verbessern.
 

Das Modell wird den Bedarf an menschlichem Eingreifen bei der Einstufung von Vorfällen erheblich verringern, wodurch das Unternehmen Zeit spart, die anderweitig genutzt werden kann, und den Kunden einen besseren und schnelleren Service bieten kann.

 

HR-Analytik: Identifizierung potenzieller Austritte

Student: Dejan Micic
 

Der Verlust und die Ausbildung von Mitarbeitern ist für viele Unternehmen einer der kostspieligsten Ausgabenposten. Aus der Sicht einer Personalabteilung wäre die Verbesserung der Mitarbeiterbindung und die Ermittlung der Faktoren, die zum Ausscheiden von Mitarbeitern führen, ein Weg, um diese Probleme anzugehen und die Fluktuation zu verringern. Dejans Ziel für dieses Projekt war es daher, ein Modell zu entwickeln, mit dem Mitarbeiter identifiziert werden können, die mit hoher Wahrscheinlichkeit in naher Zukunft das Unternehmen verlassen werden, sodass man sich proaktiv um ihre Belange kümmern kann, und um die Hauptgründe für eine Kündigung zu ermitteln. 
 

Der erste Teil des Projekts bestand darin, den Datensatz auszuwerten und die potenziellen Gründe für die Kündigung von Mitarbeitern zu ermitteln und zu beschreiben. Dazu war es notwendig, die Daten mit Hilfe von Feature-Engineering zu bearbeiten und zu analysieren.
 

HR Analytics Identifying potential leaders

Abbildung 1: Der höchste Anteil der Personen, die in den letzten drei Jahren ausgeschieden sind, war in der Gruppe der Mitte-20- bis Ende-30-Jährigen zu finden, mit einem Höhepunkt in der Gruppe der Anfang- bis Mitte-30-Jährigen (links). Die Mehrheit der Personen, die das Unternehmen verlassen haben, konnte keine Gehaltserhöhung im Vergleich zum vorherigen Beschäftigungsjahr verzeichnen (rechts).
 

Nach dem Training und der Optimierung mehrerer Modelle mit unterschiedlichen Architekturen zeigte das mit dem XGBoost-Algorithmus trainierte Modell die beste Gesamtleistung (mit einem gewichteten F1-Score von rund 90 %), wobei das Vorhandensein bzw. Nichtvorhandensein einer kürzlichen Gehaltserhöhung als bestes Abgrenzungsmerkmal für die Klassifizierung potenzieller Austritte ermittelt wurde, während andere Faktoren wie das Gehalt des Mitarbeiters und die Dauer der Beschäftigung sich ebenfalls als entscheidend erwiesen.
 

HR Analytics graphic

Abbildung 2: Während das Gehalt, die Dauer der Betriebszugehörigkeit und die Position des Mitarbeiters eher zu einer Vorhersage des Ausscheidens beitragen, zeigte das Fehlen oder Vorhandensein einer kürzlichen Gehaltserhöhung die beste Trennung zwischen der Einstufung als potenzieller Aussteiger und nicht.
 

Unter Verwendung des Status von Mitarbeitern, die gekündigt haben, aber noch nicht im System registriert sind, sagte das Modell allein auf der Grundlage der Personaldaten mehr als die Hälfte von ihnen als potenzielle Austretende voraus. Dies gibt den Unternehmen die Möglichkeit, die Zahl der Mitarbeiter, die aus nicht spontanen Gründen kündigen, deutlich zu verringern und die Zufriedenheit und Moral der Mitarbeiter zu verbessern. 

 

Krypto fliegt zum Mond

Studenten: Gabriele Tocci, Raffaella Anna Marino
 

Bitcoin und andere Kryptowährungen haben das Potenzial, das Konzept des Geldes und die Finanzwelt, wie wir sie kennen, zu verändern. Das Verständnis und die Modellierung von Preisänderungen in Finanzsystemen fasziniert Mathematiker, Wissenschaftler, Wirtschaftswissenschaftler und Händler seit Jahrzehnten. In den letzten Jahren sind die Datenwissenschaft und das maschinelle Lernen in dieses Spiel eingestiegen. Angeregt durch einen kürzlich durchgeführten Kaggle-Wettbewerb beschlossen Rafaella und Gabriele, die Preisschwankungen von Kryptowährungen auf lang- und kurzfristigen Skalen zu analysieren und zu prognostizieren, die von Minuten bis zu Jahren reichen. 
 

Sie zeigen, dass gleitende Durchschnitte und Momentum-Oszillatoren, zwei der am häufigsten verwendeten Indikatoren in der technischen Analyse von finanziellen Zeitreihendaten, für die Beschreibung von Preisschwankungen und Trends auf einer langfristigen Skala relevant sind. Es wurde eine Saisonalität zwischen mehreren Monaten beobachtet, was auf eine Periodizität des gesamten Kryptomarktes hindeutet. 
 

Auf einer winzigen Zeitskala zeigen die Zeitreihendaten eine offensichtliche Korrelation in der Zeit, was die Entwicklung eines maschinellen Lernmodells für die Vorhersage der Renditen der Kryptowährungspreise ermöglichte, wie in der Kaggle-Herausforderung gefordert. Ausgestattet mit den Informationen, die sich aus der Langzeitanalyse ergeben, erstellte die Gruppe Merkmale, die auf gleitenden Durchschnitten und Momentum-Oszillatoren basieren, und entwickelte ein XGBoost-Modell für die Vorhersage von Preisänderungen über einen Zeitraum von 15 Minuten. Die Walk-forward-Validierung zeigt, dass unser Modell ein grosses Potenzial für die Vorhersage des kurzfristigen Verhaltens von Kryptowährungsrenditen aufweist.

Crypto flying to the moon

 

Abbildung 1. Walk-forward-Validierung des Log of Return des Bitcoin-Schlusskurses, ausgewertet anhand des XGBoost-Modells (blau) und eines einfachen Basismodells (gelb), im Vergleich zum erwarteten Wert. Die Daten werden jede Minute für eine Stunde ausgewertet.
 

Wir bedanken uns bei all unseren Data Science Teilzeitstudenten für die letzten 22 Wochen und wünschen euch alles Gute für die Zukunft. 

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog