Data Science Capstone Projekte der Klasse #16

von Badru Stanicki

Capstone-Projekt Data Science Batch #17

Unsere Data Science Studenten des Batch #16 präsentieren ihre Capstone-Projekte, welche sie in den letzten drei Wochen ihres Bootcamps realisiert haben.


Sidecar: Aussagekräftige Unternehmensbeschreibungen erstellen

Studenten: Marlies Monch, Dae-Jin Rhee
 
Sidecar ist ein Unternehmen, das sich zum Ziel gesetzt hat, Kunden - von Geschäftsanalysten über Datenwissenschaftler bis hin zu CDOs - mit einem Tool für die Verwaltung ihrer Metadaten zu helfen, ihre Daten besser zu verstehen. Dies ermöglich den Kunden eine einfache Navigation und Analyse ihrer Daten. Sidecar möchte sein System zur Verwaltung von Datenbeständen unter anderem dadurch verbessern, dass es die Dateneingabe für aussagekräftige Geschäftsbeschreibungen automatisiert. Derzeit wird diese Aufgabe vom Datenverwalter ausgeführt.

Ziel war es, die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) zu nutzen, um aus den von der Datenbank generierten Bezeichnungen aussagekräftige geschäftliche Bezeichnungen und Beschreibungen zu erstellen. Bei NLP geht es darum, Computern die Fähigkeit zu verleihen, Text und Sprache so zu verarbeiten und zu erzeugen, wie sie von Menschen gesprochen werden.

Marlies und Dae-Jin erstellten zunächst ein Nachschlagewörterbuch, um die automatisch generierten Bezeichnungen mit den entsprechenden Geschäftsbezeichnungen abzugleichen. Um die Leistung zu verbessern, nutzten sie Deep Learning und trainierten ein Sequenz-zu-Sequenz-Modell auf Zeichenebene – eine spezielle Art eines rekurrenten neuronalen Netzwerkes, das häufig in der Sprachübersetzung verwendet wird – auf die vorhandenen technischen Bezeichnungen, um die geschäftlichen Bezeichnungen mit einer Genauigkeit von 99,6 % zu erzeugen (siehe Abbildung 1).

Für die Generierung aussagekräftiger Geschäftsbeschreibungen wurde das GPT-2-124M – ein trainiertes Modell zur Texterzeugung – verwendet und anhand vorhandener Beschreibungen weiter trainiert (siehe Abbildung 2). Dieses Modell war in der Lage, plausible und grammatikalisch korrekte Sätze vorherzusagen, aber diese Sätze gaben keine genaue Beschreibung der Metadaten wieder.

Zusammenfassend lässt sich sagen, dass die in unserem Projekt entwickelten Modelle Ressourcen für die Dateneingabe einsparen können und einen vielversprechenden Ansatz zur Nutzung von NLP für die Metadatengenerierung darstellen.

Sequence to sequence model
Trained text generator

 

SIX: ​​Verwendung von KI zur Erstellung synthetischer Daten

Studenten: Nicolas Bidaux, Darya Bomberger, Kacper Krylowicz, Lucas Fernandez Vilanova
 
Immer mehr Unternehmen stützen sich auf grosse Datenmengen, um ihre Geschäftsentscheidungen zu treffen. Dieser Analyseprozess kann jedoch mitunter hochsensible Informationen wie personenbezogene Daten (PII) enthalten, was ihre Verwendung besonders problematisch macht.

Aufgrund dieser datenschutzrechtlichen Einschränkungen, die durch regulatorische Rahmenbedingungen (z.B. GDPR in der EU) noch verschärft werden, untersucht SIX Banking Services neue Lösungen zur Anonymisierung ihrer Daten als ersten Schritt im Analyseprozess. Hier kann künstliche Intelligenz eingesetzt werden, um synthetische Daten zu erstellen.

Dank verschiedener Modelle des maschinellen Lernens (ML) ist es möglich, synthetische Tabellendaten zu erstellen, die: (1) sensible Informationen geheim halten und nicht identifizierbar sind, (2) statistische Eigenschaften der Originaldaten beibehalten. Eines der wichtigsten Deep-Learning-Modelle, auf das die Projektgruppe zurückgriff, war CT-GAN, ein Generative Adversarial Model (GAN), dessen grundlegendes Schema unten dargestellt ist:

Overview SIX

 

VE COOK: Nachhaltig optimierte Rezepte

Student: Solomon G. Araya

VECOOK, ein Food-Start-up mit Sitz in Zürich, stellt vegane Kochsets her und möchte ein Tool entwickeln, das Data Science-Methoden nutzt, um Rezepte nachhaltiger zu gestalten.

Das Projekt umfasste die folgenden Schritte:
  • Die relevanten Bestandteile der ursprünglichen Inhaltsstoffe werden identifiziert
  • Ein Nachhaltigkeits-Score wird auf der Grundlage einer externen Datenquelle berechnet
  • Verschiedene Methoden des maschinellen Lernens wie PCA, UMAP und Clustering werden eingesetzt, um verschiedene alternative Varianten des Originalrezepts zu finden, mit dem Ziel, die Nachhaltigkeitsbewertung zu verbessern und gleichzeitig die wichtigsten Eigenschaften des Originalrezepts zu erhalten.
 
Während des Projekts konnte Solomon einen Algorithmus entwickeln, der den gesamten CO₂-Fussabdruck eines Rezepts um etwa 30 Prozent reduzieren kann, indem er Zutaten durch chemisch ähnliche Alternativen ersetzt. VE COOK strebt an, dies zu einem allgemeinen Verfahren für eine umweltfreundlichere Lebensmittelproduktion zu entwickeln.
 

POSTme! - Ein Tool zur Optimierung von Social Media-Nachrichten

Studenten: Sibel Yasemin Özgan, Amalia Temneanu, Marcela Helena Perez Ulloa

Social Media-Umgebungen sind zu bemerkenswerten Plattformen für Unternehmen geworden, da sie den Weg für eine enthusiastische Kommunikation mit Nutzern aus der ganzen Welt weisen. Daher ist das Engagement in den sozialen Medien zu einem wesentlichen Bestandteil des Unternehmenserfolgs und zu einem zentralen Bestandteil der Marketingstrategie geworden. Vor diesem Hintergrund wandte sich ein führendes Pharmaunternehmen mit Sitz in der Schweiz an die SIT Academy mit der konkreten Aufgabe, ein Modell zu entwickeln, das die Engagement-Rate für Twitter- und LinkedIn-Posts optimiert. Das Projektteam musste zwei grosse Herausforderungen bewältigen, die sich um die Frage drehten: Wie kann ein Unternehmen seine organische Engagement-Rate verbessern? 

POSTme! ist die ultimative Lösung für ihre Social-Media-Strategie. Es ermöglicht dem Markenteam, einen potenziellen Social-Media-Beitrag einzugeben, um eine Einschätzung der geschätzten Engagement-Rate und Feedback zu erhalten, wie er verbessert werden kann.

Sibel, Amalia und Marcela wendeten syntaktisches Parsing, Entity-Extraktionstechniken, Themenmodellierung und Stimmungsanalyse mit vortrainierten Transformatoren und Worteinbettungen an. Sie testeten verschiedene Merkmale und Modelle, um die besten Kombinationen zu ermitteln. Zur Erklärung der Ergebnisse bewerteten sie die Bedeutung der einzelnen Merkmale und führten eine SHAP- und LIME-Analyse durch.

Abbildung 2: Demonstration der Verwendung der POSTme!-Plattform zur Analyse eines Beitrags.
 

Analysing Social Media Posts with POSTme!

Wir bedanken uns bei all unseren Data Science Studenten für die letzten 12 Wochen und wünschen euch alles Gute für die Zukunft.

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog