Data Science Abschlussprojekte Batch #25

von Ekaterina Butyugina

Studenten der Datenwissenschaft arbeiten an ihrem
Wir möchten uns einen Moment Zeit nehmen, um allen Studenten, die im November zu uns gestossen sind und alles gegeben haben, um den Kurs und die Capstone-Projekte zu absolvieren, ein grosses Lob auszusprechen.
 
In nur drei kurzen Monaten haben die unglaublichen Data Science-Enthusiasten von Batch #25 in Zürich, zusammen mit der erfolgreichen fünften Kohorte aus München, auf bewundernswerte Weise eine Vielzahl von anspruchsvollen Projekten in Angriff genommen. Ihre herausragenden Fähigkeiten und ihr unermüdliches Engagement wurden in vollem Umfang gezeigt. Eine wichtige Rolle für den Erfolg der Studenten spielte dieses Mal HP, das uns exklusive Z by HP Workstations zur Verfügung stellte.

Wir möchten dich ermutigen, dich selbst von der transformativen Kraft der Datenwissenschaft zu überzeugen, indem du die Grenzen überschreitest, Einsichten aufdeckst und einen bedeutenden Beitrag leistest.
 

AI-gesteuertes Hotel-Ranking: Optimiere dein Buchungserlebnis

Studenten: Asterios Raptis, Guillem Montoya, Kunal Sharma, Lorenz Schmid

Die Expedia Group, ein bekanntes Online-Reisebüro, vereinfacht die Reiseplanung, indem sie eine Plattform bereitstellt, auf der die Nutzer Preise vergleichen, Annehmlichkeiten prüfen und Unterkünfte über ausgeklügelte Empfehlungs- und Bewertungssystemen buchen können. Nehmen wir eine Suche nach einem „4-Sterne-Hotel für drei Erwachsene in Genf Anfang Mai 2024“. Ohne eine Sortierung der Optionen nach benutzerdefinierten Merkmalen wie Sternebewertung oder Anzahl der Gäste könnte ein Reisender Hunderte von Auswahlmöglichkeiten vorfinden. Dies könnte die Suchzeiten verlängern und die Buchungszahlen verringern, was dem Ziel der Plattform, die Reiseplanung zu vereinfachen, zuwiderläuft. Dieses Projekt zielt darauf ab, verschiedene Modelle des maschinellen Lernens zu bewerten, um die relevantesten Suchergebnisse effizient zu priorisieren.

Unser gemischtes Studententeam, bestehend aus einem Statistiker, einem Ingenieur, einem IT-Berater und einem Datenberater, analysierte den Expedia RecTour Forschungsdatensatz. Dieser Datensatz umfasste 1 Million Suchanfragen über einen Zeitraum von zwei Monaten im Jahr 2021 und enthielt Daten zu Buchungsdetails, Hotelbewertungen, Anzahl der Bewertungen und Annehmlichkeiten wie WiFi und Parkplätze (siehe Abbildung 1). Bei der Datenbereinigung beschränkten wir uns auf Suchanfragen, die zu Klicks oder Buchungen für die 500 wichtigsten Reiseziele führten, wodurch die Grösse unseres Trainingsdatensatzes erheblich reduziert wurde. Jede Suchanfrage in unserem Datensatz repräsentiert etwa 70 Immobilien.

Search results on booking platform showing booking details

Abb. 1: Suchergebnisse auf einer Buchungsplattform mit Buchungsdetails und Hoteleigenschaften


NDCG is a metric that measures the quality of a ranking by comparing it to the ideal ranking
Abb. 2: NDCG ist eine Metrik, die die Qualität eines Rankings misst, indem sie es mit dem idealen Ranking vergleicht.

In diesem Projekt befasste sich das Team mit der Herausforderung, Immobilien in Empfehlungssystemen auf der Grundlage von Benutzerinteraktionen wie Klicks und Buchungen zu ordnen und dabei ein nicht differenzierbares Rankingmerkmal zu verwenden. Um dies zu lösen, näherten sie sich der Rangfolge an, um die Modelle zu optimieren. Die Bewertung erfolgte anhand des Normalized Discounted Cumulative Gain (NDCG), der die Benutzerzufriedenheit priorisiert, indem er Modelle belohnt, die die relevantesten Eigenschaften höher einstufen (Abbildung 2).

Zunächst wurden entscheidungsbaumbasierte Modelle wie LightGBM und XGBRanker eingesetzt, die bei der Auswahl von Merkmalen für das Training tiefer neuronaler Netze halfen. Dann untersuchten Asterios, Guillem, Kunal und Lorenz das allRank-Modell, ein Open-Source-Modell auf Transformatorbasis, das die Rangfolge durch das Verständnis des Kontexts anderer Eigenschaften verbessert (siehe Abbildung 3). Ihre Tests zeigten, dass allRank das effektivste Modell für den Expedia RecTour-Datensatz ist (Abbildung 4). Obwohl die von Expedia erzielte Punktzahl höher ist (die gestrichelte blaue Linie), weil eine andere private Technik und ein anderer Datensatz verwendet wurden, werden die vom Team erzielten Ergebnisse bei der Verbesserung des Ansatzes von Expedia hilfreich sein.

AllRank utilizes contextual self-awareness of other hotels for reranking
Abb. 3: AllRank nutzt die kontextuelle Selbsterkenntnis anderer Hotels für das Reranking

Comparison of NDCG scores for four models with benchmark dataset
Abb. 4: Vergleich der NDCG-Werte für die vier Modelle mit dem Benchmark-Datensatz

Zukünftige Schritte umfassen das Training auf einem grösseren Datensatz, den Vergleich von Ranking-Ähnlichkeiten zwischen verschiedenen Modellen und die Anwendung von Feature-Engineering, um verschiedene Relevanzmetriken zu implementieren, die auf die Geschäftsziele abgestimmt sind. Das Team möchte sich bei seinen Mentoren von der Constructor Academy - Ekaterina Butyugina, Rena Pan und Dipanjan Sarkar - und dem Expedia-Team - Jean Coupon, Stefania Ebli und Irini Mens - für die Beratung und Unterstützung während dieses Projekts bedanken.
 

Eonymizer: Automatisierte Textanonymisierung zur Einhaltung des Datenschutzes

Studenten: Janis Kropp, Thomas Lösekann, Georg Ammer

Gibt es Bedenken hinsichtlich der Einhaltung des Datenschutzes beim Umgang mit Kundendaten? Die Zahlen sprechen Bände. Allein im Jahr 2023 wurden deutsche Unternehmen wegen Verstössen gegen das Datenschutzrecht mit Bussgeldern in Höhe von 1,2 Milliarden Euro belegt, was den dringenden Bedarf an robusten Lösungen unterstreicht.

Um diesen Bedarf zu decken, hat das Team Eonymizer entwickelt, ein Framework zur Anonymisierung persönlicher Informationen in unstrukturierten Texten. Unsere Zusammenarbeit mit E.ON, einem der grössten deutschen Energieversorger, hat die täglichen Herausforderungen bei der Verwaltung grosser Mengen von Kunden-E-Mails verdeutlicht. Die manuelle Anonymisierung ist sehr arbeitsintensiv und fehleranfällig, so dass die Automatisierung die einzige praktikable Lösung ist. Wie hat das Team dieses Problem also angepackt?

Sie verwendeten drei Ansätze mit den folgenden Modellen:

  • ChatGPT: Eine bekannte Wahl, die für ihre Benutzerfreundlichkeit und solide Leistung bekannt ist, wenn auch mit gelegentlichen Macken.
  • Sauerkraut Mixtral: Ein lokales Sprachmodell (LLM), das auf deutsche Texte zugeschnitten ist, Reproduzierbarkeit und Flexibilität bietet und auf einer Z by HP Z8 G4 Workstation eingesetzt wird.
  • Microsoft Presidio: Ein Open-Source-Framework, das vordefinierte Entitäten für eine schnelle Anonymisierung nutzt, jedoch weniger anpassungsfähig an Textvariationen ist.
Jedes der einzelnen Modelle schnitt gut ab und erreichte Leistungswerte zwischen 92,3 % und 96,2 %. Für personenbezogene Daten sind jedoch selbst solch hohe Leistungswerte möglicherweise noch nicht gut genug.

Performance scores
Leistungsergebnisse (F1-Score) für die drei implementierten Modelle

Um dieses Problem zu lösen, kombinierte das Team die Vorhersagen aller 3 Modelle. Anschliessend bewerteten sie deren Leistung anhand eines manuell beschrifteten Testdatensatzes mit 200 Textdateien. Insbesondere in Fällen, in denen alle drei Modelle identische Ergebnisse lieferten - was 44 % unseres Testdatensatzes ausmachte - konnten sie unser Ziel einer 100 %igen Genauigkeit erreichen.

Dieser Ansatz ebnet den Weg für die automatische Generierung grosser Mengen beschrifteter Trainingsdaten für die Feinabstimmung der Modelle. In Zukunft wollen wir die Generierung synthetischer Daten erforschen, um die Leistung des Modells weiter zu verbessern und seinen Nutzen für verschiedene Anwendungsfälle zu erweitern.

Beispiel für eine E-Mail, die mit Eonymizer anonymisiert wurde
An email anonymized with Eonymizer

Zusammengefasst

  • Eonymizer bietet automatisierte Textanonymisierung zur Einhaltung des Datenschutzes.
  • Durch die Kombination mehrerer Modelle lassen sich für etwa die Hälfte der Texte nahezu perfekte Anonymisierungsraten erzielen.
  • Zukünftige Bemühungen werden sich auf die Verbesserung der Modellleistung und Skalierbarkeit konzentrieren.
  • Mit Eonymizer können Sie die Komplexität der Einhaltung von Datenschutzbestimmungen mit der Gewissheit bewältigen, dass Ihre Daten geschützt sind.


Revolutionierung des wissenschaftlichen Publizierens mit KI: Die DigiScientia-Fallstudie

Studenten: Altynai Mambetova, Habtom Kahsay Gidey, Roel D’Haese

In der schnell voranschreitenden Welt der wissenschaftlichen Forschung ist der Publikationsprozess nach wie vor erstaunlich archaisch und ineffizient. Die Veröffentlichung in traditionellen Zeitschriften ist langsam, teuer und arbeitsintensiv und wird durch einen Mangel an Transparenz bei der Vergabe von Peer-Reviews, Interessenkonflikten und erheblichen Hindernissen für Nachwuchsforscher beeinträchtigt. Darüber hinaus ist der Zugang zu veröffentlichten Forschungsergebnissen oft eingeschränkt, da ein Grossteil der Informationen hinter Bezahlschranken verschlossen ist, was den freien Wissensaustausch behindert. DigiScientia*, eine innovative, völlig autonome, KI-gestützte Zeitschrift, verspricht, dieses veraltete System zu durchbrechen.

Um das Ziel zu erreichen und aus der Idee einen funktionierenden Prototyp zu entwickeln, ist der Prozess in drei Meilensteine unterteilt:
Milestones

DigiScientia* Bot nutzt einen ausgeklügelten Workflow, um einen fairen und effizienten Peer-Review-Prozess für wissenschaftliche Arbeiten zu gewährleisten.

Der Prozess beginnt mit der Extraktion von Schlüsselwörtern aus den Eingaben des Nutzers. Anhand der Schlüsselwörter führt der Bot eine API-Suche in PubMed durch, einer umfassenden Datenbank mit wissenschaftlichen Veröffentlichungen. Diese Suche dient dazu, potenzielle Peer-Reviewer zu finden, deren bisherige Arbeit und Fachwissen mit dem Thema der Arbeit übereinstimmen.

Die Suchergebnisse werden dann mit einem Open-Source-Sprachmodell von Hugging Face - PubMedBERT verarbeitet, das eine Einbettung für die übereinstimmenden Zusammenfassungen und eine Eingabezusammenfassung erstellt. Anschliessend wird für jeden potenziellen Gutachter ein Ähnlichkeitsscore berechnet. Dieser Wert quantifiziert die Relevanz des Abstracts für den eingereichten Abstract und stellt sicher, dass die ausgewählten Gutachter gut gerüstet sind, um eine sachkundige und aufschlussreiche Bewertung abzugeben.

Um Fairness zu gewährleisten und Interessenkonflikte zu vermeiden, werden Filter eingesetzt. Dazu gehören Hintergrundüberprüfungen der Nutzer, um sicherzustellen, dass die Gutachter in den letzten fünf Jahren nicht mit dem korrespondierenden Autor veröffentlicht haben. Darüber hinaus wird ein ausgewogenes Verhältnis zwischen den Dienstgraden der Gutachter gewährleistet, so dass nur ein leitender Wissenschaftler mit mehr als sieben Veröffentlichungen in den letzten fünf Jahren zugelassen wird. Zu diesem Zweck wurde die Datenbank mit mehr als vier Millionen Veröffentlichungen analysiert und verarbeitet.

Auf der Grundlage der Ähnlichkeitsbewertungen und der angewandten Filter wählt der Bot die drei besten Kandidaten aus, die als Gutachter für die Arbeit fungieren. Diese Auswahl dient dazu, die Objektivität und Qualität des Peer-Review-Prozesses zu maximieren. 

Models best matched results

Nach der Auswahl der Peer-Reviewer übernimmt der in den DigiScientia*-Bot integrierte E-Mail-Dienst die Arbeit. Er ruft die Kontaktdaten der ausgewählten Gutachter ab und sendet ihnen selbstständig eine Einladung zur Begutachtung der Arbeit. Dieser Schritt vervollständigt den End-to-End-Prozess innerhalb der App, nachdem die Eingaben des Nutzers übermittelt wurden.
 

Die Ergebnisse

Die Umsetzung des DigiScientia-Modells hat bereits vielversprechende Ergebnisse gezeigt. So hat die KI beispielsweise bei der Begutachtung eines Artikels über die Gesundheitsgefahren von Kunststoffen in Lebensmittelverpackungen erfolgreich relevante Experten identifiziert und eingebunden, deren Forschungsarbeiten eng mit dem Thema übereinstimmen, was die Fähigkeit des Systems zur Verbesserung der Qualität und Relevanz von Peer-Reviews unter Beweis stellt. 

Um den voll funktionsfähigen Produktprototyp zu demonstrieren, hat das Team eine Streamlit-App entwickelt, die die Eingabe von Benutzereingaben ermöglicht, die besten Beiträge mit den entsprechenden Autoren anzeigt, die eingereichten Rezensionen analysiert und die Kontrolle über den DigiScientia Bot übernimmt.

Fazit

Durch die Integration fortschrittlicher KI-Technologien mit einer Verpflichtung zu Offenheit und Integrität setzt DigiScientia* einen neuen Standard für wissenschaftliche Veröffentlichungen. Dieser Ansatz macht den Publikationsprozess nicht nur effizienter, sondern auch gerechter, demokratisiert den Zugang zu Wissen und ermöglicht eine schnellere und transparentere Verbreitung wissenschaftlicher Entdeckungen. 


Batterie-Kühler-Vorhersage

Studenten: Laura Giulietti, Stephan Krushev, Federica Graziano

Fluence Energy AG ist ein globaler Marktführer für Energiespeicherprodukte und -dienstleistungen sowie für cloudbasierte Software für erneuerbare Energien und Speicheranlagen. Die Abteilung in Zürich ist auf die Bereitstellung von Data Intelligence Services für erneuerbare Energien und Batteriespeichersysteme (BEss) weltweit spezialisiert. Ihr Hauptziel ist es, Modelle zu entwickeln, die die präventive und reaktive Wartung optimieren und so die Betriebszeit der Komponenten erhöhen und es den Kunden ermöglichen, den maximalen Wert aus ihren Anlagen zu ziehen.

Die Wartungsstrategien werden durch Zuverlässigkeitsanalysen bestimmt, die das Risiko von Komponentenausfällen bewerten. Diese Risiken werden auf der Grundlage von Hersteller-Garantieangaben oder beobachteten Ausfallraten in betrieblichen Komponentenflotten ermittelt. Der Abgleich dieser Risiken mit den Ergebnissen des Vorhersagemodells ermöglicht es den Servicemanagern, Wartungseingriffe auf der Grundlage des Echtzeitzustands der Komponenten zu planen.

Der Schwerpunkt des Projekts liegt auf der Ermittlung der Ausfallwahrscheinlichkeit und -häufigkeit, ausgedrückt als Mean Time Between Failures (MTBF), und der Entwicklung von Modellen, die in der Lage sind, Ausfälle mit einer Vorankündigung (z. B. 2 Wochen) vorherzusagen. Laura, Stephan und Federica begannen mit der Analyse von Rohdaten von Sensoren auf Batteriespeichern, um die Ursachen für Ausfälle zu diagnostizieren. Dieser Ansatz wurde in drei Stufen entwickelt:
  • Visualisierung der Daten
  • Definition von Ausfallkriterien für Komponenten
  • Statistische Analyse zur Festlegung von Ausfallschwellen
Battery storage devices to diagnose failure causesLegend

Die anschliessende prädiktive Analyse stützte sich sowohl auf überwachte als auch auf unüberwachte Methoden zur Fehlererkennung, wobei zwei unterschiedliche Ansätze verwendet wurden:
  • Schätzung der Ausfallwahrscheinlichkeit innerhalb eines zweiwöchigen Zeitrahmens
  • Vorhersage des zukünftigen Verlaufs der überwachten Signale
Predictive analysis

In dieser Projektphase wurden rekursive neuronale Netzmodelle eingesetzt. Beide Ansätze, die Schätzung der Ausfallwahrscheinlichkeit und die Vorhersage von Signaltrends, ermöglichten es, Systemausfälle im Voraus zu erkennen und rechtzeitig einzugreifen, um Systemausfälle zu verhindern.

Abschliessende Worte

Zum Abschluss dieser bemerkenswerten Reise mit der Data Science Final Projects Group #25 möchten wir allen Unternehmen, die unseren Studenten wertvolle Projekte zur Verfügung gestellt haben, unseren herzlichen Dank aussprechen. Ihre Zusammenarbeit hat nicht nur ihre Lernerfahrung bereichert, sondern auch den Weg für innovative Lösungen für reale Herausforderungen geebnet. Unsere Anerkennung gilt den Studenten, die im Februar zu uns gestoßen sind und sich mit ganzem Herzen dem Kurs und ihren Abschlussprojekten gewidmet haben. Ihr Engagement, ihre Fähigkeiten und ihre Leidenschaft für die Datenwissenschaft haben uns wirklich beeindruckt. Wir wünschen allen Studenten das Allerbeste für ihre zukünftigen Unternehmungen. Mögen Sie weiterhin Grenzen überschreiten, innovativ sein und einen bedeutenden Einfluss ausüben, wohin auch immer Ihre Karriere Sie führen mag.

Für alle, die sich von diesen Geschichten inspirieren lassen und ihre eigene Reise in die Datenwissenschaft antreten möchten, freuen wir uns, unser nächstes Bootcamp anzukündigen. Erfahren Sie mehr über unser Programm und wie Sie sich der nächsten Kohorte von Data Science-Innovatoren bei Constructor Academy anschliessen können.

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog