Skip to content

Mehrsprachige Kundensupport-Tickets (Synthetisch)

Ein vollständig synthetischer Datensatz zum Trainieren und Evaluieren von Helpdesk-Modellen, wie der Klassifizierung von Warteschlange, Priorität und Typ, sowie für das Pre-Training von Antwortassistenten. Erstellt mit unserem Python Synthetic Data Generator und auf Kaggle veröffentlicht.


Versionen im Überblick

Netzwerkdiagramm der Datensatzversionen

VersionSprachenGröße (relativ)Anmerkungen
v5EN, DEGrößteNeueste und verfeinerte Taxonomie/Balancing; Fokus auf EN/DE-Qualität.
v4EN, DEGroßÄhnlicher Fokus wie v5; etwas ältere Prompts und Verteilungen.
v3EN, DE, + mehr (FR/ES/PT)KleinerFrühere Pipeline; mehr Sprachen, aber insgesamt weniger vielfältiger Inhalt.

Ältere Versionen enthalten mehr Sprachen, sind aber im Allgemeinen kleiner und weniger vielfältig. Die neuesten Versionen (v5, v4) legen den Schwerpunkt auf EN/DE-Qualität und -Umfang.

Welche Version sollte ich verwenden?

  • Training von EN/DE-Produktionsmodellen → beginnen Sie mit v5 (oder v4, wenn Sie einen vergleichbaren älteren Satz benötigen).
  • Forschung über mehrere Sprachen hinwegv3 (kleiner, aber enthält mehr Locales).

Dateien & Benennung

Sie finden CSV-Exporte pro Version (Beispiele):

dataset-tickets-multi-lang-4-20k.csv
dataset-tickets-multi-lang3-4k.csv
dataset-tickets-german_normalized.csv

Schema

Jedes Ticket enthält den Kerntext sowie Labels, die von Open Ticket AI verwendet werden.

SpalteBeschreibung
subjectDer E-Mail-Betreff des Kunden
bodyDer E-Mail-Text des Kunden
answerDie erste Antwort des Agenten (KI-generiert)
typeTicket-Typ (z.B. Incident, Request, Problem, …)
queueZiel-Warteschlange (z.B. Technical Support, Billing)
priorityPriorität (z.B. low, medium, high)
languageTicket-Sprache (z.B. en, de, …)
versionDatensatzversion (Metadaten)
tag_1, tag_2, …Ein oder mehrere thematische Tags (können teilweise null sein)

Ausschnitte aus den Daten

  • de (Incident / Technical Support / high)Betreff: Wesentlicher Sicherheitsvorfall Text (Auszug): „…ich möchte einen gravierenden Sicherheitsvorfall melden…“ Antwort (Auszug): „Vielen Dank für die Meldung…“

  • en (Incident / Technical Support / high)Betreff: Account Disruption Text (Auszug): “I am writing to report a significant problem with the centralized account…” Antwort (Auszug): “We are aware of the outage…”

  • en (Request / Returns and Exchanges / medium)Betreff: Query About Smart Home System Integration Features Text (Auszug): “I am reaching out to request details about…” Antwort (Auszug): “Our products support…”


Visueller Rundgang

Wortwolke der Ticket-Betreffs

Meistverwendete Tags

Verteilungen für Warteschlange, Priorität, Sprache, Typ


Verwendungszweck & Einschränkungen

Verwendungszweck:

  • Kaltstart-Training von Modellen für Warteschlange/Priorität/Typ
  • Experimente zum Class-Balancing
  • Mehrsprachiges Benchmarking (verwenden Sie v3, wenn Sie FR/ES/PT benötigen)

Einschränkungen:

  • Synthetische Verteilungen können von Ihrem Produktions-Traffic abweichen. Validieren Sie immer mit einer kleinen, anonymisierten realen Stichprobe vor dem Deployment.

Laden & schnelle Überprüfungen

python
import pandas as pd

df = pd.read_csv("dataset-tickets-multi-lang-4-20k.csv")  # oder Ihre gewählte Version

# Grundlegende Plausibilitätsprüfungen
print(df.language.value_counts())
print(df.queue.value_counts().head())

# Einfachen Text für die Klassifizierung vorbereiten
X = (df["subject"].fillna("") + "\n\n" + df["body"].fillna("")).astype(str)
y = df["queue"].astype(str)

Beziehung zu Open Ticket AI

Dieser Datensatz spiegelt die Labels wider, die Open Ticket AI für eingehende Tickets vorhersagt (Warteschlange, Priorität, Typ, Tags). Verwenden Sie ihn, um das Training und die Evaluierung zu bootstrappen; deployen Sie Ihr Modell mit Open Ticket AI, sobald Sie mit den Metriken zufrieden sind.


Lizenz & Zitat

  • Datensatz: Bitte fügen Sie hier Ihre gewählte Datenlizenz ein (z.B. CC BY 4.0).
  • Generator: geplant LGPL. Für Zugriff oder Anpassungen: sales@softoft.de.

Zitiervorschlag:

Bueck, T. (2025). Multilingual Customer Support Tickets (Synthetic). Kaggle Dataset. Generated with the Open Ticket AI Synthetic Data Generator.


Changelog (Übersicht)

  • v5: Nur EN/DE; größter Satz; verbesserte Taxonomie und Balancing.
  • v4: EN/DE; groß; früherer Satz von Prompts.
  • v3: Kleiner; enthält zusätzliche Sprachen (FR/ES/PT), frühere Pipeline.