Datenwissenschaftliche Abschlussprojekte Batch #23

von Ekaterina Butyugina

Energie Verbrauch in Form von Strom
Wir möchten einen Moment nehmen, um allen Studierenden einen grossen Dank auszusprechen, die sich uns im August angeschlossen haben und alles gegeben haben, um den Kurs und die Abschlussprojekte erfolgreich abzuschliessen. In nur drei Monaten haben unsere Data Science Studierenden des Batch #23 in Zürich eine Vielzahl von anspruchsvollen Projekten erfolgreich gemeistert und dabei ihre aussergewöhnlichen Fähigkeiten und ihr Engagement unter Beweis gestellt. Wir ermutigen dich, die transformative Kraft von Data Science aus erster Hand zu erleben, während du Grenzen überschreitest, Erkenntnisse freilegst und bedeutende Auswirkungen erzielst.

Energieverbrauchs in der Immobilienbranche

Studenten: Jin Cao, Artem Rakcheev, Stephanie Sabel, Timothy Frei

Durch den erheblichen Verbrauch von Energie in Form von Strom und sauberem Wasser tragen Immobilien erheblich zu den globalen Treibhausgasemissionen bei. Um die staatlich vorgeschriebenen Klimaziele zu erreichen, müssen Immobilieninvestoren die Emissionen ihrer Portfoliogebäude bis 2050 auf Netto-Null reduzieren. Ein erster Schritt dazu ist das Verständnis der Faktoren, die den Strom- und Wasserverbrauch in Immobilienobjekten kritisch beeinflussen. Ein weiteres Problem besteht darin, dass Verbrauchsdaten nicht immer zum Berichtszeitpunkt verfügbar sind (in der Regel am Jahresende). Das bedeutet, dass der Verbrauch für die Monate Oktober, November und Dezember oft auf Grundlage der Vorjahre geschätzt wird, was zu ungenauen Ergebnissen führen kann. Maschinenlernmodelle können dazu beitragen, bessere Prognosen für den Verbrauch in diesen fehlenden Monaten zu erstellen.

Novalytica, ein Datenwissenschafts-Startup mit Immobilienexpertise, prüft, wie es Investoren mit massgeschneiderten Daten- und KI-Lösungen bei diesen Herausforderungen unterstützen kann. Dafür erhielt unser Team Zugang zu mehreren Datensätzen zum Energieverbrauch und zu Eigenschaften von Gebäuden wie Gebäudetyp, Zertifizierung und Entfernungen zu interessanten Punkten. Insgesamt umfasste dies 178 Immobilien mit Daten aus den Jahren 2019 bis 2022. Das Team kombinierte diese Daten dann weiter mit Wetterdaten, da der Energieverbrauch stark vom spezifischen Wetter abhängt.

Um die Haupttreiber des Energieverbrauchs zu identifizieren, passte das Team ein Gradient-Boosting-Regressionsmodell an die Daten an und verwendete das SHAP-Paket in Python, um die Bedeutung einzelner Merkmale zu berechnen.

Anschliessend adressierte das Team die Vorhersage der letzten drei Monate eines Jahres basierend auf den vorherigen neun Monaten, indem es ein Long Short-Term Memory (LSTM) Deep Neural Network trainierte, das den mittleren absoluten Fehler um 27% für den Stromverbrauch und 35% für den Wasserverbrauch im Vergleich zu einem naiven Ansatz reduzierte, der den Durchschnitt pro Monat der Vorjahre nahm.

Graphs depicting feature contributions and predicted consumption of energy
Abbildung 1, App-Screenshot: Das linke Panel zeigt die Merkmalbeiträge für eine ausgewählte Immobilie (blau) und das gesamte Portfolio (grün). Im rechten Panel kann man verschiedene Eigenschaftsmerkmale ändern und einen geschätzten Verbrauch erhalten.

Abbildung 2, App-Screenshot: Das linke Panel zeigt die historischen Verbrauchsdaten für eine ausgewählte Immobilie (blau) und das gesamte Portfolio (grün). Im rechten Panel kann man Verbrauchsdaten für neun Monate eingeben und eine Vorhersage für die folgenden drei Monate erhalten. Eine Fehlerabschätzung (schattierter Bereich) auf Grundlage des mittleren absoluten Fehlers wird bereitgestellt.

Historical consumption of energy and forecasted consumption of energy
Die resultierenden Modelle wurden schliesslich in eine Streamlit-Web-App integriert (siehe die obigen Screenshots), die Investoren einfachen Zugang zu wichtigen Leistungsindikatoren bietet und es ihnen ermöglicht, den Verbrauch basierend auf Änderungen bestimmter Immobilieneigenschaften vorherzusagen. Darüber hinaus bietet sie eine Schnittstelle zur Prognose des Verbrauchs basierend auf den neuesten Daten.

Letztendlich kann der Zugang zu prädiktiver Analytik Immobilieninvestoren dabei helfen, Entscheidungen zu treffen, die gut für die Umwelt sind und gleichzeitig ihre finanziellen Renditen steigern.


Multiples Myelom: Eine Überlebensgeschichte

Students: Antonio Mariano, PhD, Dr. Tatiana Keller, Gordon W Marshall

Über 160.000 Menschen weltweit leben derzeit mit multiplem Myelom, einer seltenen Krebserkrankung, die die Produktion von Plasmazellen beeinträchtigt und eine Vielzahl von Symptomen verursacht, darunter reduzierte Nierenfunktion, Knochenläsionen und Anämie.

Wie können wir eine rechtzeitige und effektive Behandlung für diese Patienten sicherstellen? Welche Schlüsselindikatoren signalisieren den Erfolg der Behandlung?

TriNetX ist ein globales Gesundheitsforschungsnetzwerk, das eine Plattform für Gesundheitsorganisationen, Forscher und Life-Science-Unternehmen bietet, um zusammenzuarbeiten und auf Echtzeit-Klinikdaten (RWD) für klinische Forschung und Analyse zuzugreifen. TriNetX zielt darauf ab, klinische Studien zu beschleunigen, Studiendesign zu verbessern und Patientenrekrutierung durch eine umfassende und standardisierte Sicht auf Patientenpopulationen in verschiedenen Gesundheitseinrichtungen zu erleichtern.

Dem Team wurde eine anonymisierte RWD-Datenbank mit Behandlungshistorien von Patienten mit multiplem Myelom zur Verfügung gestellt, und die Aufgabe bestand darin, ein prognostisches Modell für Behandlungsergebnisse zu entwickeln und prognostische Faktoren in der Onkologie nach ihrer Bedeutung zu sortieren.

Die Daten bestanden aus 390 Attributen von 2600 Beobachtungen (Patienten), die jeweils mit der Time To Next Treatment (TTNT) verknüpft waren, der Zeit zwischen der ersten und zweiten Behandlungslinie eines Patienten.

Diese Datenbank enthielt eine grosse Menge fehlender Daten. Daher entwickelte das Team als ersten notwendigen Schritt eine Datenpipeline, um die Daten zu bereinigen und fehlende Werte zu imputieren.

Als nächstes stand das Problem an, zu verstehen, welche Attribute oder Merkmale die TTNT beeinflussen. Da diese Zeit das Eintreten eines Ereignisses markiert (die nächste Behandlungsphase), fällt das Problem in die Kategorie "Survival Analysis". Der Ansatz, typisch für die Survival Analysis, bestand darin, ein Cox-Regressionsmodell zu verwenden und die Leistung anhand seines Concordance Index (C-Index) in einem Test-Trainings-Validierungssplit zu bewerten. Der erzielte Score betrug 0,62, was auf eine gute Diskriminierung hinweist, im Einklang mit ähnlichen Problemen in der Literatur.

Das Team nutzte dieses Modell dann, um eine Liste von Merkmalen in der Reihenfolge ihres Hazard Ratio (HR) zu erhalten, was das relative Risiko eines eintretenden Ereignisses, der nächsten Behandlungslinie, bedeutet. Merkmale mit hohem HR tragen dazu bei, die Zeit zu verkürzen, die ein Patient für eine neue Behandlungsphase benötigt, während Merkmale mit niedrigem HR zu einer längeren Zeit beitragen. Siehe die Hazard Ratio Grafik unten zur Referenz (Abbildung 1).

A graph that depicts the low and high risk factors

Abbildung 1. Hazard Ratio zeigt die Faktoren mit geringem Risiko (links) und hohem Risiko (rechts).

Das Team ging noch einen Schritt weiter, um eine detaillierte Ansicht mit Hilfe von Kaplan-Meier Überlebenskurven zu erhalten. Auf dem Bild unten (Abbildung 2, links) kann man sehen, wie die Leistungsfähigkeit des Patienten (ECOG) die Time To Next Treatment (TTNT) beeinflusst. "Begrenzte Selbstpflegefähigkeit" oder "Behinderung" verkürzen die TTNT um mehrere Monate im Vergleich zu "Ambulanten" oder "Eingeschränkten" Aktivitäten der Patienten. Das Modell kann auch die Wirksamkeit verschiedener Medikamente vorhersagen (Abbildung 2, rechts).

A graph that depicts Kaplan-meier survival curvesA graph depicting the drug effectiveness in compasison
Abbildung 2. Kaplan-Meier Überlebenskurven für verschiedene Merkmale: ECOG (links) und Medikamente (rechts).

Für eine genauere Analyse muss das Modell eine Patientenstratifizierung nach Alter, Krebsstadium oder Überlebensrang durch den C-Index haben. Das ist ein Plan für die zukünftige Modellverbesserung.


Bringe deine Karriere voran mit dem hochmodernen Data Science Bootcamp der Constructor Academy

Bist du bereit, eine Welt grenzenloser Möglichkeiten in einer hoch anspruchsvollen, angesehenen und finanziell belohnenden Karriere zu entdecken? Dann schau dir das Data Science Bootcamp von Constructor Academy an.

Entwickelt, um dich mit den wesentlichen Techniken und Technologien für die Nutzung der Kraft von realen Daten auszustatten, bietet unser Bootcamp zwei flexible Optionen: Vollzeit (12 Wochen) und Teilzeit (22 Wochen). Während dieser immersiven Erfahrung wirst du transformative Technologien wie maschinelles Lernen, natürliche Sprachverarbeitung (NLP), Python, Deep Learning und Datenvisualisierung meistern.

Aber das ist noch nicht alles! Starte deine Reise in die Datenwissenschaft mit unserer kostenlosen Einführung in das faszinierende Reich der Datenwissenschaft. Klicke einfach hier, um auf diese wertvolle Ressource zuzugreifen und deine Entdeckungsreise zu beginnen.

Bereite dich darauf vor, eine Zukunft voller endloser Möglichkeiten zu umarmen. Constructor Academy verpflichtet sich dazu, aufstrebende Datenwissenschaftler wie dich dabei zu unterstützen, dein wahres Potenzial zu entfesseln und den Weg für beispiellosen Erfolg zu ebnen. Begleite uns auf diesem aufregenden Abenteuer, und gestalten wir gemeinsam die Zukunft der Datenwissenschaft.
 

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog