Data Science Abschlussprojekte Batch #15

von Badru Stanicki

Data Science Studentenprojekte Klasse #15

Idorsia: Zellen-Klassifizierung

Studenten: Peerawan Wiwattananon, Martina Trippel
 
Wenn Tumorzellen vorhanden sind, dringen Immunzellen in den Tumor ein, um Tumorzellen abzutöten. Um die Wirksamkeit von Medikamenten zur Heilung von Krebserkrankungen zu untersuchen, muss ein Instrument entwickelt werden, mit dem Immunzellen im Tumor vor und nach der Behandlung der Patienten klassifiziert werden können. Mit diesem Werkzeug kann verglichen werden, welche Zellen noch im Tumor vorhanden sind und welche durch die Behandlung verschwunden sind (Abbildung 1).
 
Die Studenten entwickelten ein Tool zur Klassifizierung von Zellen in Tumoren, indem sie den Einzelzell-Referenzatlas zur Erstellung eines Zelltyp-Klassifikators verwendeten. Dieses Werkzeug kann dann verwendet werden, um den in neuen Einzelzellstudien gefundenen Zellen automatisch Zellbezeichnungen zuzuweisen.
 
Die Projektgruppe und die SIT Academy sind stolz darauf, einen Beitrag zu Idorsias Bemühungen um die Entwicklung von Medikamenten zur Heilung von Krebserkrankungen leisten zu können.
visualization single cell
Abbildung 1: Schematische Darstellung der Verwendung der Einzelzellklassifizierung für die Entwicklung neuer Behandlungen

Idorsia
Abbildung 2: Projektion des hochdimensionalen Merkmalsraums auf 2 Dimensionen, die die von dem von den Schülern entwickelten Modell zugewiesenen Bezeichnungen zeigt.
 

Nispera: Erkennung von unzureichender Leistung von Windkraftanlagen

Studenten: Mario Kovacs, Pedro Pereira, Lisa Christl
 
Nispera ist ein in Zürich ansässiges Unternehmen, das Data-Intelligence-Dienste für erneuerbare Energieanlagen anbietet. Eine ihrer Dienstleistungen ist die Optimierung der Leistung von Windturbinenparks.
 
Der erste Teil dieses Projekts bestand darin, die typische Beziehung zwischen Umweltfaktoren wie Windgeschwindigkeit und Temperatur und der erzeugten elektrischen Leistung einer bestimmten Gruppe von Windturbinen zu beschreiben. Zur Ermittlung einer solchen Standardleistungskurve einer Windturbine war es erforderlich, die Daten zu analysieren und Filteralgorithmen zur Entfernung unregelmässiger und inkonsistenter Werte zu entwickeln. 

Raw data
Abbildung 1: Rohdaten, Entfernen unphysikalischer Daten, Entfernen von Ausreissern

Nachdem die Studenten einen sauberen und robusten Datensatz erhalten hatten, entwickelten Lisa, Pedro und Mario verschiedene Regressionsalgorithmen zur Modellierung der Leistung der einzelnen Turbinen. 

Filtered data
Abbildung 2: Gefilterte Daten (blau), ML-Modell (grün)
 
Im anschliessenden Teil des Projekts nutzte das Team seine Modelle, um einen Alarmmechanismus zu entwickeln, der ausgelöst wird, sobald eine unzureichende Leistung festgestellt wird. 
 
Mit diesem Ansatz können Windparkbetreiber in Echtzeit benachrichtigt werden, um zu handeln und potenzielle finanzielle Verluste zu verringern. Für die analysierte Gruppe von 10 Windturbinen wurde der kumulierte Verlust über drei Jahre aufgrund unzureichender Leistung auf etwa 100.000 USD geschätzt. Die im Rahmen des Projekts entwickelten Methoden könnten Nispera in die Lage versetzen, einen neuen Dienst zur Verbesserung der Leistung der Windenergieerzeugung zu entwickeln. 

Chart Nispera
Abbildung 3: Kumulierter Energieverlust jeder der 10 Windkraftanlagen
 

Sentifi: Aktienauswahlmodell auf der Basis von AI-gestützten ESG-Scores

Studenten: Eduardo Aguilar Moreno, Anselme Borgeaud, Rubén Coll Menéndez
 
Ein ESG-Score (Environmental, Social, and Corporate Governance) ist eine Bewertung des kollektiven Bewusstseins eines Unternehmens für soziale, ökologische und Governance-Faktoren. Investoren verwenden diese nicht-finanziellen Faktoren zunehmend als Teil ihres Investitionsprozesses, um wesentliche Risiken und Wachstumschancen zu identifizieren. Zur Unterstützung von Anlegern und Behörden bieten Datenanbieter ESG-Ratings für Unternehmen/Aktien an. Das Problem bei diesen Bewertungen ist, dass sie manuell von Analysten erstellt und nur jedes Jahr aktualisiert werden.
 
Sentifi hat eine ESG-Bewertung entwickelt, die von einer KI-Maschine in Echtzeit berechnet wird. Die KI-Engine von Sentifi scannt täglich 500 Millionen Nachrichtenartikel, Blogs, Foren und Tweets. Sie erkennt ESG-Ereignisse, über die in diesen Quellen berichtet wird, und aktualisiert den Score entsprechend auf der Grundlage der Intensität und Stimmung der Diskussion um ein ES-Ereignis. Ziel dieses Projekts war es, ein maschinelles Lernmodell zu entwickeln, das den ESG-Score von Sentifi und damit verbundene Merkmale (wie ESG-Ereignisse, Stimmung, Aufmerksamkeit usw.) verwendet, um Aktien so auszuwählen, dass das jeweilige Portfolio den Markt übertrifft.
Prozess
Unter Verwendung der ESG-Scores von Sentifi und der Aufmerksamkeitsdaten als Merkmale trainierten Eduardo, Anselme und Ruben XGBoost-Modelle zur Vorhersage der erwarteten Performance von Aktien. Durch die Verwendung ihres Modells zur Auswahl der vielversprechendsten Aktien aus dem S&P 500 gelang es ihnen, den Basisindex über einen Zeitraum von sechs Jahren um 20% und eine Zufallsauswahlstrategie um mehr als 45% zu übertreffen. Wie die Abbildung unten zeigt, wurde die Outperformance gegenüber dem Markt archiviert, während die Portfolioauswahl über die Sektoren diversifiziert blieb. Darüber hinaus konnten sie durch den Einsatz von Werkzeugen des maschinellen Lernens die Relevanz der ESG-bezogenen Merkmale von Sentifi nachweisen. Insbesondere konnten sie zeigen, wie höhere Werte für Umwelt- und Sozialbewusstsein mit einer besseren Gesamtperformance korrelieren.
 
 

Contovista: Kartentransaktionen kategorisieren

Studenten:  Lingxuan Zhang, Juan Aguirre, Matthias Galipaud, Mevluet Polat
 
Viele Menschen haben finanzielle Probleme, weil sie die Höhe ihrer täglichen Ausgaben nicht richtig kontrollieren können. Wie viel habe ich letzte Woche für Restaurants ausgegeben? Habe ich im letzten Jahr zu viel für Verkehrsmittel ausgegeben? Die Dienste von Contovista helfen dabei, diese Fragen einfach und automatisch zu beantworten.
 
Lingxuan, Juan, Matthias und Mevluet entwickelten eine automatische Analysepipeline, die Kartentransaktionsdaten verarbeitet, um Zahlungen in bestimmte Warenkategorien zu klassifizieren. Die Transaktionsdaten selbst liefern nur sehr begrenzte Informationen über den betreffenden Händler, aber in der Regel haben die Händler Websites, auf denen weitere Informationen abgerufen werden können. Das Projektteam begann mit der Entwicklung eines ML-Modells zur Überprüfung, ob die von einer Suchmaschine gefundenen Webseiten tatsächlich zum richtigen Händler gehören. Im nächsten Schritt wurden modernste mehrsprachige Deep-Learning-Modelle zur Kategorisierung dieser Webseiten eingesetzt. Das Projektteam und die SIT-Akademie sind stolz darauf, dass diese Arbeit Contovista helfen könnte, das Online-Banking für uns alle weiter zu vereinfachen.

Overview Contovista

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog