Case Study

Session Daten Analyse

Zur Evaluation der Zufriedenheit von Nutzer:innen einer Suchmaschine wurden in diesem Projekt Logdaten analysiert. Mit der Anwendung von Machine Learning konnten wir Suchsessions extrahieren und auswerten.

  • Branche Other
  • Thema NLP
  • Tools Python
  • Projektdauer 3 Monate

Herausforderung

Die Erstellung und Bereitstellung von fachspezifischen Dokumenten ist eine zentrale Dienstleistung unseres Kunden aus dem Verlagswesen. Nutzer:innen greifen über eine Website auf relevante Dokumente zu und können mit verschiedensten Funktionalitäten die Dokumentsuche weiter verfeinern. Die Relevanz der Suchresultate, aber auch die benötigten Verfeinerungen der Suche, sind für die Zufriedenheit der Nutzer:innen entscheidend. Welche Sucheingaben einer Person auf das gleiche Dokument ausgerichtet sind, war jedoch nicht Bestandteil der Logdaten und musste erst noch ermittelt werden. Da die Erstellung von Labels teils mit sehr hohen Kosten verbunden ist, waren nur sehr wenige Beispiele verfügbar. Mit der Analyse suchbezogener Logdaten soll die Identifizierung gezielter Maßnahmen zur Erhöhung der Nutzerzufriedenheit von einer datenbasierten Lösung unterstützt werden.

Ansatz

Zur Vorbereitung der Analyse wurden anonymisierte Logeinträge um NLP-basierte Merkmale angereichert. Unter Verwendung feinjustierter Machine Learning Modelle konnte, ungeachtet der wenigen verfügbaren Labels, eine Bündelung der Logeinträge zu Sessions auf den gesamten Daten erfolgreich durchgeführt werden. Um eine Auswertung der Zufriedenheit zu ermöglichen, haben wir geeignete Zufriedenheitsmerkmale, wie u.a. benötigter Aufwand zum Erreichen relevanter Resultate und Dauer der Dokumentenansicht, abgeleitet und mit den Sessions verbunden. Für die Zufriedenheitsanalyse aller Sessions wurde ein kleiner Teil der Daten händisch bewertet und als Trainingsgrundlage für ein Machine Learning Modell verwendet.

Unser Modell ist so in der Lage, eine Zufriedenheitsbewertung aller Sessions zu erstellen und dient im Zusammenspiel mit von uns entwickelten Clusterverfahren als Grundlage der Zufriedenheitsbewertung. Der gesamte Prozess von der Extraktion über die Datenanreicherung bis hin zur Zufriedenheitsbewertung der Sessions findet vollautomatisiert auf der Infrastruktur unseres Kunden statt.

Ergebnis

Mit unserer Herangehensweise können Zufriedenheitsmerkmale von Machine Learning Modellen erkannt und den Logdaten hinzugefügt werden. Für die erfolgreiche Implementierung wurden nur wenige Trainingsdaten benötigt, wodurch der hohe manuelle Aufwand für die Erstellung von Labels minimiert werden konnte. Die Anreicherung der Logdaten um Zufriedenheitsmerkmale ermöglicht ein besseres Verständnis des Nutzerverhaltens und ist ein wichtiger Schritt bei der Identifizierung von Maßnahmen zur Verbesserung der Sucherfahrung.

Experte

Erfahre mehr!

Als eines der führenden Unternehmen im Bereich Data Science, Machine Learning und KI begleiten wir Sie in die datengetriebene Zukunft. Erfahren Sie mehr über statworx und darüber, was uns antreibt.