Data Science Capstone-Projekte Batch #28

von Ekaterina Butyugina

Wir freuen uns, die herausragenden Leistungen unserer neuesten Absolventinnen und Absolventen zu feiern, die letzten November zu uns gestossen sind und sich mit voller Hingabe dem Kurs und ihren Capstone-Projekten gewidmet haben.

In den vergangenen drei Monaten haben die talentierten Teilnehmerinnen und Teilnehmer von Batch #28 in Zürich sowie die erfolgreiche 7. Kohorte in München eine Vielzahl anspruchsvoller Projekte umgesetzt. Ihre Fähigkeiten, ihre Begeisterung und ihr Engagement waren in ihrer gesamten Arbeit deutlich erkennbar.

Wir sind HP für ihre unschätzbare Unterstützung dankbar, da sie uns mit modernsten Z by HP Workstations ausgestattet haben. Diese haben es unseren Studierenden ermöglicht, noch mehr zu erreichen und zu ihrem Erfolg beizutragen.

Wir laden dich ein, diese inspirierenden Beispiele zu entdecken, wie unsere Studierenden Data Science einsetzen, um wertvolle Erkenntnisse zu gewinnen, neue Möglichkeiten zu erforschen und einen bedeutenden Einfluss zu erzielen.

Wetterbasierte Vorhersage von Flugverspätungen

Studierende: Martina Wengle, Ralf Reuvers, René Falquier

Das Ziel dieses Projekts war es, die Wahrscheinlichkeit von Abflugverspätungen basierend auf den Wetterbedingungen zum geplanten Abflugzeitpunkt für bestimmte Passagierflugrouten vorherzusagen. Gesponsert vom Free Flight Lab, sollte diese Initiative Regionen identifizieren, die von präziseren Luftfahrtvorhersagen profitieren könnten.

Das Ziel war es, den Airline Network Operations Centers Echtzeit-Einblicke in die Verspätungswahrscheinlichkeiten zu liefern, um proaktive Entscheidungen zur Minimierung von Störungen, zur Senkung von Kosten und zur Verbesserung der Passagiererfahrung zu ermöglichen.

Der Datensatz wurde von Grund auf neu erstellt, indem eine eigene Abfrage-Logik entwickelt wurde, um Daten aus Flightradar24, FlightAware und der Aviation Weather Exchange API zu extrahieren. Über einen Zeitraum von drei Jahren wurden 220.000 Flüge auf 64 Routen abgefragt, was nach der Zusammenführung von Flug- und Wetterdaten zu einem Datensatz mit 26,4 Millionen Datenpunkten führte.
Predicted Probabilities of Departure Delay

Predicted Probabilities of Departure Delay

Verschiedene Machine-Learning-Algorithmen wurden getestet, wobei Random Forest sich in der f2-Score-Metrik gegen andere Algorithmen wie XGBoost durchsetzte. Diese Metrik priorisierte die Minimierung falscher "pünktlich"-Vorhersagen, da eine Unterschätzung von Verspätungen zu weiteren betrieblichen Störungen führen kann. Eine falsche Verspätungsvorhersage ist eher verkraftbar als eine nicht erkannte echte Verspätung, die kostspielige Folgewirkungen haben kann.

Das zentrale Ergebnis war ein interaktives Dashboard, das Verspätungsvorhersagen pro Route anzeigt (siehe Bild oben). Das Modell erreichte einen Gesamt-f2-Score von 70 %, wobei auf einigen Routen eine Genauigkeit von über 90 % erzielt wurde. Diese Variationen führten zu wichtigen Erkenntnissen:

Betriebsfaktoren dominierten die Vorhersagen: Eine SHapley Additive exPlanations (SHAP)-Analyse zeigte, dass das Modell betriebliche Muster gegenüber reinen Wetterdaten bevorzugte, selbst wenn es nur mit Wettermerkmalen trainiert wurde. Beispielsweise wiesen Luftdruckmessungen oft auf bestimmte Flughäfen hin, was darauf hindeutet, dass das Modell eher durch betriebliche Gegebenheiten als durch Wetterbedingungen beeinflusst wurde.
Einfachere Routen führten zu besseren Vorhersagen: Routen mit weniger betrieblichen Komplexitäten lieferten genauere Verspätungsvorhersagen. Dies legt nahe, dass airline- und routenspezifische Modelle die Vorhersageverlässlichkeit für Network Operations Centers verbessern könnten.
Geringe Sichtweite hatte einen überproportionalen Einfluss: Die SHAP-Analyse zeigte, dass meteorologische Sichtverhältnisse der einflussreichste wetterbedingte Faktor waren, vermutlich aufgrund gesetzlicher Anforderungen an die Luftverkehrskontrolle in Bedingungen mit niedrigen Instrumentenflugregeln (LIFR).

Diese Erkenntnisse deuten darauf hin, dass eine betriebsorientierte Vorhersageplattform für wetterbedingte Verspätungen realisierbar ist. Die nächsten Schritte zur weiteren Verfeinerung und Implementierung umfassen:

Betreiber- und streckenspezifische Modelle: Anpassung der Modelle an den Betrieb einzelner Fluggesellschaften zur Verbesserung der Genauigkeit.
Vergleiche zwischen Wettervorhersage und Bericht: Verbesserung der Vorhersagefähigkeiten durch Integration der Vorhersagegenauigkeit in das Modell.
Quantifizierte Verspätungsvorhersagen: Über binäre Klassifizierungen hinausgehen und präzise Verspätungsdauern liefern.
Vollständig globaler Datensatz: Ausweitung des Datensatzes auf weltweite Routen für eine bessere Verallgemeinerbarkeit.

Martina, Ralf und René sind stolz auf ihre Fortschritte in nur vier Wochen und freuen sich darauf, dass das Free Flight Lab ihre Arbeit weiterentwickelt. Sie danken Herrn Kristjan Rognvaldsson für seine Branchenexpertise sowie dem Team der Constructor Academy für ihre Unterstützung.

Von viralen Kunden zu wertvollen Erkenntnissen

Studierende: Roberto Gonzalez, Ammar Alghouli, Christian Schmid-Schönbein

Best Secret, ein bekannter Name im Luxusmodeeinzelhandel, hat ein Projekt zur Verbesserung seiner Geschäftsleistung durchgeführt, indem es datengestützte Erkenntnisse zur Vorhersage von Umsätzen über Kundenkohorten (z. B. Kunden, die in bestimmten Jahren registriert wurden) und Märkte nutzte.

In diesem Projekt wollte das Team durch die Nutzung von Zeitreihenanalysen Umsatztrends für die nächsten 18 Monate des Unternehmens prognostizieren und so wertvolle Einblicke in Kundenkohorten und Marktleistungen gewinnen. Durch die Fokussierung auf bestimmte Kundensegmente und die Analyse des Marktverhaltens konnte das Team seinen Ansatz zur Erstellung von Prognosen für eine bessere Entscheidungsfindung in den Lagern des Unternehmens etablieren.

Die Analyse ergab, dass die Anzahl der Kunden der entscheidende Faktor für die Umsatzgenerierung ist. Kunden wurden in zwei Gruppen eingeteilt: "Viral Customers" (von bestehenden Mitgliedern eingeladen) und "Customers" (durch Unternehmenskampagnen geworben).

Das Vorhersagemodell bestand aus drei Schritten:

Prognose der Anzahl viraler Kunden für 18 Monate
Prognose der Gesamtzahl der Kunden basierend auf der ersten Prognose
Generierung einer detaillierten Umsatzprognose für den 18-monatigen Zeitraum

Das Modell erreichte eine bemerkenswerte Genauigkeit mit einem mittleren absoluten prozentualen Fehler von nur 6%, was dem Unternehmen ein zuverlässiges Werkzeug für strategische Entscheidungen bietet.

Fazit

Wir bedanken uns herzlich bei den Unternehmen, die wertvolle Projekte bereitgestellt haben und so das Lernen unserer Studierenden bereichert haben.

Allen Studierenden, die im November gestartet sind und sich mit vollem Einsatz ihren finalen Projekten gewidmet haben, gratulieren wir zu ihren beeindruckenden Leistungen. Euer Engagement, eure Fähigkeiten und eure Leidenschaft für Data Science sind inspirierend. Wir wünschen euch viel Erfolg für die Zukunft und sind sicher, dass ihr weiterhin innovativ sein und grosse Auswirkungen in euren Bereichen erzielen werdet.

Für alle, die sich inspirieren lassen und ihren eigenen Data-Science-Weg einschlagen möchten, laden wir ein, mehr über unser nächstes Programm auf der Website der Constructor Academy zu erfahren!

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos