Data Science Batch #7 - Einige Highlights der Abschlussprojekte

von Nitin Kumar

Studentenprojekte Data Science Klasse #7
Dies ist die erste von vielen Projektzusammenfassungen, die wir für unsere zukünftigen Studenten und Unternehmenspartner schreiben, um einen Einblick in die Art von Projekten zu geben, an denen die Data Science-Studenten von Constructor Academy während ihres Capstone-Projekts arbeiten. 

Constructor Academy's Batch #7 (13. Mai 2019 - 31. Juli 2019) der Data Science-Studenten arbeitete an fünf Projekten, die von unseren Industriepartnern, wie Swiss International Airlines, Qard und PriceHubble, zur Verfügung gestellt wurden. Alle Projekte beinhalteten Machine Learning und zwei beinhalteten Deep Learning. Sie deckten einen weiten Bereich von Data Science Anwendungen ab. Hier ist eine Liste mit einigen Details:

Vorhersage von Bise-Wind am Flughafen Zürich

Für Swiss International Airlines

Am Flughafen Zürich kommt es zu ca. 30 % Verspätungen, wenn der Bise-Wind (kalter, trockener, nordöstlicher bis südwestlicher Wind) auf den Flughafen Zürich trifft. Dieses Projekt konzentrierte sich auf die Vorhersage von Bise-Ereignissen sowie auf die Vorhersage ihrer Dauer. Die beiden Studenten, die an dieser Aufgabe arbeiteten, erreichten eine Genauigkeit von ~80%. Obwohl solche Ergebnisse hoch sind, müssen sie das 95%-Niveau erreichen, um in einem realen Warnsystem verwendet werden zu können. Wir sind glücklich mit diesen Ergebnissen und noch glücklicher zu wissen, dass das Projekt in der kommenden Data Science Charge fortgesetzt wird.
 

Ausfallvorhersage im E-Commerce basierend auf öffentlichen Daten

Für qardfinance.com

Als FinTech-Startup analysiert Qard E-Commerce-Unternehmen, die Kredite beantragen, und nutzt einen datengesteuerten Ansatz, um diejenigen zu identifizieren, die ein hohes Risiko haben, mit ihren Kreditzahlungen in Verzug zu geraten. Qard möchte dieses System auf die Nutzung nicht-finanzieller Daten ausweiten. Für dieses Projekt arbeiteten die Studenten von Constructor Academy daran, E-Commerce-spezifische nicht-finanzielle Daten aus etwa 400 GB strukturierter/unstrukturierter Daten zu extrahieren, die von Qard im Laufe der Jahre gesammelt wurden. Die Studenten von Constructor Academy erreichten eine Genauigkeit von ca. 70 % bei der Identifizierung von Zahlungsausfällen anhand von nicht-finanziellen Daten. Die Entwicklung eines solchen Systems würde im Wesentlichen allen Kreditanbietern helfen, da sie einen Kreditnehmer nicht nach seinen Finanzen fragen müssten. 

PhenoCAT: (Un)überwachte Klassifikation von Mikroskopiebildern mit Deep Learning

Persönliches Studentenprojekt

Dies war ein unabhängiges Projekt, das von einem der Studenten mitgebracht wurde, der in ähnlichen Bereichen promoviert hat. Bildbasierte Genetic Perturbation Screens werden regelmässig in Forschungslabors eingesetzt, um Marker für krebsverursachende Gene zu identifizieren. Solche Screens generieren Petabytes an Daten (Millionen von Bildern) und erfordern automatische Systeme, um diese Bilder zu analysieren. Die beiden Studenten wollten testen, ob sie Deep Learning, in erster Linie Convolutional Neural Networks und Variational Auto-Encoder, einsetzen können, um Bilder automatisch in ihre Interessenskategorie zu klassifizieren. Da keine gelabelten Daten vorhanden waren, mussten die Studenten aktives Lernen verwenden, um ihre Trainings- und Testdaten sequentiell zu erstellen. Der überwachte Ansatz ergab eine Genauigkeit von >90%. Ein zweiter Ansatz, der unüberwachtes Lernen auf der Basis von Auto-Encodern verwendet, muss weiter erforscht werden, war aber bereits in der Lage, realistisch aussehende computergenerierte Bilder zu erzeugen.
 

Klassifizierung von Immobilienbildern (Qualität von Häusern)

Für Pricehubble

In diesem Projekt ging es um die Anwendung von Active Learning mit Convolutional Neural Networks zur automatischen Klassifizierung von Immobilienbildern in verschiedene Preiskategorien. Für dieses Projekt wurden mehrere vor-trainierte Netzwerke (z.B. ResNet und VGG16) als Ausgangspunkt verwendet, um sie mit unseren Daten weiter zu trainieren. Die Verwendung von vortrainierten Netzwerken ist eine Standardpraxis in der Bildanalyse mit Deep Learning. Der Student, der die Challenge bearbeitet hat, konnte auf diesen Daten eine Genauigkeit von ~93% erreichen.
 

Skill-Gap-Analyse und Kursempfehlungen für den am besten passenden Job

Für Constructor Academy

Als EdTech-Startup sucht Constructor Academy häufig nach Wegen, wie wir unsere Studenten mithilfe von Daten bei der Entwicklung ihrer Lernbedürfnisse unterstützen können. Das zentrale Ziel dieses Projekts war es, die für die technologiebezogenen Jobs in der Schweiz erforderlichen Fähigkeiten zu identifizieren, sie mit den eigenen Fähigkeiten und dem Hintergrund des Jobsuchenden (wie aus LinkedIn-Profilen extrahiert) abzugleichen und letzterem schliesslich passende Positionen oder Ausbildungsprogramme anzubieten. Zu diesem Zweck setzten die Studenten NLP-Techniken ein, um die semantischen Ähnlichkeiten zwischen den Stellenanzeigen und den Fähigkeiten der Kandidaten herauszufinden, etwas, das den meisten Stellenempfehlungsdiensten fehlt. Constructor Academy arbeitet nun daran, dieses Projekt als Online-Tool weiterzuentwickeln, um nicht nur unseren Studenten, sondern auch der allgemeinen Schweizer Öffentlichkeit zu helfen.

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog