Datenwissenschaft Abschlussprojekte Batch #26

von Ekaterina Butyugina

Arbeitsplatz eines Studenten der Datenwissenschaft

Wir möchten uns einen Moment nehmen, um allen Studierenden, die im Mai zu uns gestoßen sind und ihr Bestes gegeben haben, den Kurs und die Capstone-Projekte abzuschließen, ein großes Lob auszusprechen.
In nur drei kurzen Monaten haben die talentierten Datenwissenschafts-Enthusiasten aus dem Batch #26 in Zürich zusammen mit dem fünften Jahrgang aus München eine Vielzahl herausfordernder Projekte angenommen. Ihre außergewöhnlichen Fähigkeiten und ihr unermüdliches Engagement waren während des gesamten Kurses deutlich zu spüren. Ein entscheidender Erfolgsfaktor war diesmal die Unterstützung von HP, die uns exklusive Z by HP-Workstations zur Verfügung gestellt haben.

Wir laden dich ein, die transformative Kraft der Data Science in Aktion zu erleben, wenn diese Studierenden Grenzen überschreiten, Erkenntnisse gewinnen und bedeutende Erfolge erzielen.


Der Neighborhood Vibe Score


Studenten: Philippe Matter, Seçkin Adalı, Dashrath Kurli

Comparis möchte Einzelpersonen und Familien dabei helfen, fundierte Entscheidungen zu treffen, indem sie kundenrelevante Metriken zur Verfügung stellen. Für ihren Immobilienbereich wollte das Unternehmen eine Nachbarschaft Bewertung für gelistete Immobilien entwickeln und den „Vibe“ der Nachbarschaft einfangen, um potenziellen Hauskäufern die Entscheidungsfindung zu erleichtern.
Um dies zu erreichen, entwickelten Philippe, Dashrath und Seckin ein Nachbarschafts-Bewertungssystem, welches kostenlose, vergleichbare und transparent berechnete Metriken bereitstellt. Diese Lösung zielt darauf ab, das Nutzerengagement auf der Comparis-Plattform zu erhöhen, indem die Nutzer die Seite für Nachbarschafts Informationen nicht mehr verlassen müssen.

Das Team bewertete Datenquellen, indem es OpenStreetMap (OSM) und Google Places API verglich (siehe Abbildung 1). Da Google einheitlichere Daten in verschiedenen Gebieten lieferte und Einrichtungen bewertete, wurde es als primäre Datenquelle ausgewählt. Das Team bemerkte, dass eine zukünftige fortschrittliche Lösung die Kombination von Daten aus beiden Quellen umfassen könnte.

Comparison of the facilities returned by Google Places (red dots) and by OpenStreetMapComparison of the facilities returned by Google Places - Rural area
Abbildung 1. Vergleich der von Google Places (rote Punkte) und von OpenStreetMap (schwarze Punkte) zurückgegebenen Einrichtungen, die die starke Diskrepanz für (1) links, einem städtischen Gebiet in Zürich und (2) rechts, einem ländlichen Gebiet zeigen

Um ein umfassendes Bewertungssystem zu erstellen, entwickelte das Team zwei Schlüsselmetriken: einen Global Score und einen Custom Score. Der Global Score berücksichtigt die Anzahl der Einrichtungen (acht Typen, darunter Schulen, Lebensmittelgeschäfte, Bars usw.) im Umkreis von 10 Minuten Fußweg, die Reisezeiten zu den nächstgelegenen Annehmlichkeiten und die Bewertungen der Einrichtungen. Der Custom Score berücksichtigt die Vorlieben der Benutzer, indem die Bedeutung verschiedener Einrichtungstypen angegebenund persönliche Informationen, wie beispielsweise eine Arbeitsadresse, einbezogen werden . Um den Bedarf an einem automatisierten Bewertungsprozess, der auf den Immobilienseiten sichtbar ist, zu decken, setzte das Team K-Means-Clustering ein. Diese Technik kategorisiert Adressen anhand prominenter Merkmale und weist Bewertungen unter Verwendung von mittleren Einrichtungszahlen innerhalb jedes Clusters zu.

Um zu zeigen, wie oft verschiedene Einrichtungen in der Nachbarschaft vorkommen und wie nah sie an der Immobilie liegen, wurden alle Einrichtungen auf einer Karte dargestellt. Dabei wurde OpenRouteService verwendet, um Zonen zu erstellen, die zeigen, wie weit man in 3, 5, 7, 10, 13 und 15 Minuten zu Fuß von der Immobilie aus kommt (siehe Abbildung 1).

Um den „Vibe“ der Nachbarschaft einzufangen, speiste das Team die gesammelten Daten zusammen mit der Bevölkerungszahl der Nachbarschaft und dem tatsächlichen Standort der Nachbarschaft in ein LLM (ChatGPT 3.5 turbo) ein, um einen zusammenfassenden Text in verschiedenen Stilen zu generieren, zum Beispiel im Stil einer „Immobilienbroschüre“.

Zusätzlich wurden mit OpenRouteService und der Schweizer ÖV-API die Reisezeiten zur Arbeitsstelle, die maximal akzeptable Pendelzeit und die bevorzugten Verkehrsmittel in die Bewertung einbezogen. Dadurch erhältst du eine maßgeschneiderte Bewertung, die auf deinen persönlichen Vorlieben basiert.

The working prototype can be tested as a Streamlit app
Abbildung 2. Arbeitsprototyp mit der umfassenden Analyse des „Neighborhood Vibe“

Der funktionierende Prototyp kann als Streamlit-App getestet werden (siehe auch Abbildung 2 oben).
 

Verbesserung der Qualitätssicherung bei Elektromotoren durch KI-gesteuerte Vibrationstests


Studenten: Naveen Chand Dugar, ​​Matthias Gumbert, Danijel Matesic

BMW ist ein deutscher multinationaler Hersteller von Luxusfahrzeugen und Motorrädern mit Hauptsitz in München, Bayern. Für BMW ist die Qualitätssicherung in der Produktion von Elektromotoren ein entscheidender Aspekt zur Sicherstellung von Zuverlässigkeit und Leistung. Traditionelle Methoden zur Prüfung und Klassifizierung von Motoren basieren auf Vibrationsanalysen, die arbeitsintensiv sein und zu menschlichen Fehlern führen können. Um diese Herausforderungen zu meistern, hatte das Projekt das Ziel, den Qualitätssicherungsprozess für Prototypenmotoren durch den Einsatz von KI-gesteuerter Automatisierung grundlegend zu verbessern.

Naveen, Matthias und Danijel nutzten ihre vielfältige Expertise, um die Komplexitäten der Qualitätskontrolle von Motoren anzugehen.

Das Hauptziel des Projekts war es, die Effizienz und Genauigkeit der Qualitätssicherungsprozesse für Prototypen-Elektromotoren zu verbessern (siehe Abbildung 1). Das Team erreichte dies, indem es den Prozess der Klassifizierung von Vibrationstests automatisierte, KI zur genauen Anomalieerkennung einsetzte und eine Ursachenanalyse durchführte, um potenzielle Qualitätsprobleme zu identifizieren.


The BMW Electric motor
Abbildung 1. Elektromotor

Zentrale Ziele waren: Einsatz von KI zur Automatisierung der Klassifizierung von Vibrationstests, Unterscheidung zwischen einwandfreien und fehlerhaften Motoren; Implementierung von KI-Modellen zur Erkennung von Anomalien in Vibrationsdaten, um Einblicke in potenzielle Probleme zu gewinnen; Nutzung von Datenanalysen zur Durchführung einer Ursachenanalyse, um den gesamten Qualitätssicherungsprozess zu verbessern.

Um die Genauigkeit und Zuverlässigkeit der KI-Modelle zu gewährleisten, folgte das Team einem umfassenden Workflow: Sicherstellung, dass die Vibrationsdaten frei von Rauschen und Fehlern sind; Strukturierung und Formatierung von Daten; Verwendung fortschrittlicher Datenanalysen und KI-Modelle zur Vorhersage der Motorqualität und Identifizierung potenzieller Probleme.

Das KI-Modell, das unter Verwendung von Transfer Learning mit Convolutional Neural Networks (CNN) entwickelt wurde, prognostiziert die Motorqualität, indem es Vibrationsdaten analysiert. Das Modell ist in ein benutzerfreundliches Dashboard integriert, das eine einfache Interaktion mit den Testdaten ermöglicht. Dieses Dashboard erleichtert die Echtzeitanalyse und Visualisierung von Motorentestergebnissen, Anomalieerkennung und Ursachenanalyse.

A visualization of motor test results, anomaly detection, and root cause analysis.
Abbildung 2. KI-Workflow

Durch den Einsatz von KI zur Vorhersage der Motorqualität und die Durchführung von Datenanalysen zur Ursachenanalyse wurde die Effizienz und Genauigkeit des Qualitätssicherungsprozesses erheblich verbessert. Das Dashboard bietet eine optimierte Schnittstelle für die Interaktion mit Testdaten, wodurch es den Ingenieuren erleichtert wird, fundierte Entscheidungen zu treffen.

Um das System weiter zu verbessern, plant das Team:

  • Die Integration des KI-Modells in den Test Workflow für Echtzeitanalysen.
  • Die kontinuierliche Bewertung und Optimierung des Modells basierend auf neuen Daten und Rückmeldungen.
  • Die Nutzung von großen Sprachmodellen (LLM) für verbesserte FAQ-Interaktion, um den Benutzern besseren Support und Einblicke zu bieten.


Naveen, Matthias und Danijel bedanken sich bei unseren Partnern der BMW Group und der Constructor Academy, die zum Erfolg dieses Projekts beigetragen haben.
 

Nachhaltigkeitsbericht: KI zur Steigerung der Effizienz nutzen

Studenten: Anja Wettstein, Fatima Yousif Gaffar, Stefanie Wedel, Alexandre da Silva

In der heutigen, sich rasch verändernden Geschäftswelt hat sich Nachhaltigkeit von einem bloßen Schlagwort zu einem kritischen Fokusbereich für Unternehmen weltweit entwickelt. Organisationen stehen unter zunehmendem Druck, nicht nur nachhaltige Praktiken zu übernehmen, sondern auch transparent über ihre Fortschritte zu berichten. In diesem Bewusstsein bietet Engageability innovative Lösungen, die globale Nachhaltigkeitsherausforderungen sowohl im öffentlichen als auch im privaten Sektor adressieren.

Durch die Auswertung von Nachhaltigkeitsberichten liefert Engageability wertvolle Einblicke in die Effektivität, mit der Unternehmen Nachhaltigkeitsfragen angehen, insbesondere in Übereinstimmung mit globalen Standards, wie denen der Task Force on Climate-Related Financial Disclosures (TCFD). Dieses Projekt stellt einen bedeutenden Fortschritt in der Erreichung der Ziele von Engageability dar.

Das Team hat ein KI-gestütztes Werkzeug entwickelt, das die Art und Weise, wie Nachhaltigkeitsberichte analysiert werden, verbessert und die Zeit, die für diese entscheidende Aufgabe erforderlich ist, von einem ganzen Tag auf nur wenige Stunden reduziert.

Die TCFD hat spezifische Anforderungen für die Berichterstattung zu klimabezogenen Themen aufgestellt, und basierend auf diesen Richtlinien hat Engageability 32 Schlüsselfragen formuliert, um die Berichterstattungspraxis von Unternehmen zu bewerten.

Das KI-Modell beginnt damit, die Berichte der Unternehmen einzulesen, die von allgemeinen Jahresberichten bis hin zu detaillierten Nachhaltigkeitsdokumenten reichen können, welche oft 50 bis 120 Seiten umfassen. Durch fortschrittliche Techniken wie Ähnlichkeitssuche und semantisches Matching scannt die KI diese Berichte, um Antworten auf die vordefinierten Fragen zu finden. Das Modell verarbeitet diese Ergebnisse dann durch ein großes Sprachmodell (LLM), das menschenähnliche Antworten generiert. Jede Antwort enthält ein einfaches Ja/Nein sowie die Begründung für die Einschätzung des Modells, was eine klare und präzise Bewertung ermöglicht.

Die Anwendung, die Anja, Fatima, Stefanie und Alexandre entwickelt haben, ist benutzerfreundlich gestaltet. Du kannst zwischen verschiedenen Sprachmodellen wählen und das PDF des Berichts hochladen, den du analysieren möchtest. Die Ergebnisse, einschließlich der Begründung für jede Ja/Nein-Antwort und der spezifischen Seiten, auf denen die Informationen gefunden wurden, können heruntergeladen werden (siehe Abbildung 1).

LLM report analysis tool - main dashboard
Abbildung 1. LLM-Berichtsanalysen-Tool

Das KI-gestützte Werkzeug ist ein bedeutender Schritt nach vorne, um Engageability dabei zu helfen, Nachhaltigkeitsberichte effizienter zu bewerten. Durch das Extrahieren relevanter Passagen und die Bereitstellung klarer Antworten auf TCFD-bezogene Fragen reduziert das Tool den Aufwand und die Zeit für die Analyse erheblich.

Um dieses Projekt weiter zu verbessern, empfehlen wir zwei zentrale Verbesserungen. Erstens sollten die für die Analyse verwendeten Fragen so präzise und klar wie möglich formuliert werden, um Mehrdeutigkeiten zu vermeiden, die zu ungenauen Antworten führen könnten. Zweitens ist Einheitlichkeit bei den verwendeten Dokumenten entscheidend. Diese wird die Reproduzierbarkeit und Transparenz der Ergebnisse verbessern und eine solide Grundlage für die weitere Modellentwicklung und -verfeinerung schaffen.

Zusammenfassend lässt sich sagen, dass dieses Projekt nicht nur die Mission von Engageability voranbringt, sondern auch ein Beispiel dafür liefert, wie die Nachhaltigkeitsberichterstattung durch den Einsatz von KI optimiert und verbessert werden kann.
 

Stable Solutions: Optimierung der Produktdaten für den Online-Handel im Reitsport

Studenten: Sebastian Gottschalk, Kerstin Kirchgässner, Rusen Yasar

Riders Deal ist ein Online-Einzelhandel und Deutschlands größte Deal-Plattform, die sich auf Reitsport Produkte spezialisiert hat. Da sie eine große Produktbasis von mehreren Lieferanten haben, müssen sie unterschiedlich strukturierte Produktdaten in ein einheitliches Format umwandeln, das von ihrem Webshop-System verwendet werden kann. Die Automatisierung dieser Datenumwandlung würde einen weniger arbeitsintensiven Prozess, eine schnellere Integration in die Website und geringere Kosten bedeuten.

Sebastian, Kerstin und Rusen haben eine Anwendung entwickelt, die Produktdaten so, wie sie von einem Lieferanten bereitgestellt werden, zusammen mit benutzerdefinierten Parametern in eine standardisierte Datei eingibt. Sie integrierten programmgesteuerte Datenverarbeitungstechniken, die die Datenintegrität für leicht verfügbare Informationen gewährleisten, mit NLP-Maschinen- und Deep-Learning-Modellen, die auf historischen Daten trainiert wurden (siehe Abbildung 1 unten).

The workflow that converts the product data from five major suppliers
Abbildung 1. KI-Workflow

Der aktuelle Prototyp ist darauf ausgelegt, die Produktdaten von fünf großen Lieferanten zu konvertieren. Das Team hat auch eine grafische Benutzeroberfläche entworfen, über die du mit der App interagieren, Parameter definieren und Dateien bequem hoch- und herunterladen kannst. Den Snapshot dieser App findest du in Abbildung 2 unten. Die Entwicklung dieser App wird die Möglichkeit bieten, Zeit und Kosten, die mit der Produktdatenumwandlung verbunden sind, erheblich zu reduzieren.

Product data transformation
Abbildung 2. Arbeitsprototyp zur Konvertierung der Produktdaten

Zukünftige Verbesserungen könnten eine weitere Optimierung der Methoden zur Datenumwandlung und der Maschinen- und Deep-Learning-Modelle mit iterativem Feedback von Geschäftsexpertise umfassen. Ein natürlicher nächster Schritt in der Entwicklung wird die Erweiterung auf mehr Lieferanten sein, um letztendlich alle Lieferanten vollständig abzudecken.

ProductTwins: Transformation des Produktdatenmanagements mit KI

Studenten: Gabriel D. Guerra & Nikita G. Meshin

Das ProductTwins-Projekt transformiert das Produktdatenmanagement durch die Entwicklung einer digitalen Datenbank für Balkonverbinder. Diese Initiative wurde in Zusammenarbeit mit Pro Engineers, einem Ingenieurbüro, das CAD für den Bau einsetzt, und Leviat, einem führenden Designer von Verbindungslösungen, durchgeführt. Das Projekt zielt darauf ab, Ingenieuren einen schnellen Zugang zu umfassenden Produktinformationen zu ermöglichen.

Gabriel und Nikita hatten die Aufgabe, zunächst Rohdaten aus Broschüren und Typenzulassungen für Leviat und dessen Wettbewerber Schöck zu extrahieren. Der nächste Schritt bestand darin, die Daten in ein nutzbares Format zu konvertieren und eine durchsuchbare Datenbank mit robusten Produktvergleichsfunktionen zu erstellen. Der Datenextraktionsprozess stieß zunächst auf Herausforderungen bei der Erkennung von Tabellen aus gescannten PDF-Dateien. Nach der Fokussierung auf textbasierte PDFs wurde eine reibungslosere Datenextraktion erreicht, was zur Erstellung einer Datenbank mit Tausenden von Produktiterationen führte.

Snapshoot of the product database
Abbildung 1. Produktdatenbank

Nachdem die Datenbank eingerichtet war, wurde eine Streamlit-Anwendung entwickelt, die den Produktvergleich erleichtert. Benutzer können gewünschte Kriterien eingeben und nach alternativen Produkten suchen. Zu den Hauptfunktionen gehören die Suche nach Modellnummern oder Spezifikationen, das Anpassen der Suchkriterien und die separate Anzeige von Ergebnissen für Leviat- und Schöck-Produkte.Zukünftige Verbesserungen zielen darauf ab, die Benutzeroberfläche zu verbessern und weitere Daten hinzuzufügen, um die Suchergebnisse zu erweitern.

A working prototype of th Product Finder App
Abbildung 2. Arbeitsprototyp zur Produktsuche

Darüber hinaus untersucht das Projekt die Nutzung von Python zur Programmierung von CAD-Modellen, die es Ingenieurbüros ermöglichen, 3D-Modelle für digitale Umgebungen zu erstellen. Pro Engineers plant, bestehende CAD-Dateien und Produktbenennungen zu nutzen, um ein KI-Modell zu trainieren, das CAD-Dateien basierend auf Produktnamen generiert. Dieser Ansatz hat das Potenzial, Prozesse zu automatisieren und somit die Effizienz zu steigern.

Das ProductTwins-Projekt veranschaulicht das transformative Potenzial der Integration von Datenwissenschaft in Ingenieur-Workflows und fördert die Zusammenarbeit zwischen Leviat und Pro Engineers. Gabriel und Nikita sind daran interessiert, das Produktdatenmanagement weiter voranzutreiben und freuen sich auf die zukünftige Zusammenarbeit in diesem innovativen Vorhaben.

Fazit

Zum Abschluss dieser bemerkenswerten Reise mit der Gruppe #26 der Data Science Final Projects möchten wir unseren tiefsten Dank an alle Unternehmen aussprechen, die unseren Studierenden wertvolle Projekte zur Verfügung gestellt haben. Die Zusammenarbeit hat nicht nur ihre Lernerfahrung bereichert, sondern auch den Weg für innovative Lösungen zu realen Herausforderungen geebnet.

Wir möchten den Studierenden, die im Februar zu uns gestoßen sind und sich mit ganzer Kraft der Fertigstellung des Kurses und ihrer Abschlussprojekte gewidmet haben, unser besonderes Lob für ihr außergewöhnliches Engagement aussprechen. Deine Hingabe, deine Fähigkeiten und deine Leidenschaft für Datenwissenschaft sind ganz deutlich geworden. Wir wünschen dir alles Gute für deine zukünftigen Unternehmungen. Mögest du weiterhin Grenzen überschreiten, Innovationen vorantreiben und überall dort, wo deine Karriere dich hinführt, bedeutende Erfolgeerzielen.

Für alle, die von diesen Geschichten inspiriert wurden und daran interessiert sind, ihre eigene Reise in der Datenwissenschaft zu beginnen, freuen wir uns, unser bevorstehendes Bootcamp ankündigen zu dürfen. Erfahre mehr über unser Programm und wie du dich der nächsten Kohorte von Datenwissenschafts-Innovatoren an der Constructor Academy anschließen kannst.

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog