Génération de Données Synthétiques pour les Tickets de Support

Créez des jeux de données de tickets de support multilingues et de haute qualité pour la classification, le routage et l'automatisation des réponses. Cette page décrit notre Générateur de Données Synthétiques basé sur Python et le jeu de données public que nous avons créé avec. Elle explique également comment le générateur soutient le flux d'entraînement d'Open Ticket AI et nos services commerciaux de génération de données.

INFO

Objectif : Générer des tickets réalistes (sujet, corps, file d'attente, priorité, type, tags, langue et une première réponse d'agent IA).
Langues : DE, EN, FR, ES, PT.
Pipeline : Graphe de « nœuds » IA configurables (thème → e-mail → tags → paraphrase → traduction → réponse).
Modèles : Fonctionne avec OpenAI, OpenRouter, Together… (GPT-4, Qwen, LLaMA, etc.).
Contrôles : CLI intégrée, modes dev/prod, suivi des coûts et des tokens avec résumés monétaires.
Licence : Publication prévue sous licence LGPL.
Besoin de l'outil ou de modifications personnalisées ? → sales@softoft.de

Ce qu'il génère

Champs principaux : ticket_id, subject, body
Étiquettes de classification : type (Incident/Demande/Problème/Changement), queue (ex: Support Technique, Facturation, RH), priority (Basse/Moyenne/Haute)
Langue : language (DE/EN/FR/ES/PT)
Tags : 4 à 8 tags de domaine/thème par ticket
Réponse de l'agent : un message de première réponse rédigé par un assistant IA

Un exemple d'enregistrement (CSV) :

csv

ticket_id,subject,body,language,type,queue,priority,tags,first_response
8934012332184,"VPN verbindet nicht","Seit dem Update keine Verbindung…","DE","Incident","IT / Security","High","vpn,update,remote-access,windows","Hallo! Bitte öffnen Sie die VPN-App…"

Les ID sont garantis uniques dans une plage de 12 à 13 chiffres, ce qui simplifie les jointures et les fusions entre les exécutions.

Comment ça marche (en bref)

Le générateur utilise un pipeline basé sur un graphe de petits « nœuds » testables. Chemin typique :

Thème → Brouillon de sujet → Brouillon du corps de l'e-mail → Tagging → Paraphrase → Traduction → Première réponse

Vous pouvez réorganiser les nœuds, supprimer des étapes ou ajouter les vôtres. Chaque « assistant » est configurable (prompts système/utilisateur, modèle/fournisseur, limites). Cela signifie que vous pouvez rapidement produire des tickets spécifiques à un domaine (par exemple, RH, santé, commerce de détail, secteur public) sans réécrire de code.

Flexibilité des modèles et des fournisseurs

Utilisez vos LLMs préférés :

Fournisseurs : OpenAI, OpenRouter, Together (et d'autres via des adaptateurs)
Modèles : Classe GPT-4, Qwen, LLaMA, etc.
Changez les prompts par nœud pour augmenter la diversité et contrôler le ton, la terminologie et la structure.

Suivi des coûts et de l'utilisation (intégré)

Comptabilité des tokens et des coûts par exécution (entrée vs. sortie) pour chaque modèle
Seuils configurables qui avertissent/génèrent une erreur si une seule exécution dépasse une limite de coût
Résumés monétaires (ex: USD, EUR) pour une budgétisation claire
Modes Dev vs. Prod pour basculer entre de petites exécutions de test et la création de jeux de données complets

Démarrage rapide

Lancez une tâche de génération de jeu de données avec la CLI intégrée :

bash

python -m ticket_generator

Idées de configuration minimale (pseudocode) :

python

# config/config.py (example)
RUN = {
    "rows": 10_000,  # total examples
    "batch_size": 50,  # lower for cheap dev runs
    "languages": ["DE", "EN", "FR", "ES", "PT"],
    "timezone": "Europe/Berlin",
    "pipeline": [
        "topic_node",
        "email_draft_node",
        "tagging_node",
        "paraphrase_node",
        "translate_node",
        "first_response_node"
    ],
    "models": {
        "default": {
            "provider": "openai",
            "name": "gpt-4o-mini",
            "max_tokens": 800
        }
    },
    "cost_limits": {
        "warn": 0.001,  # USD per single assistant run
        "error": 0.01
    }
}

En pratique, vous ajusterez les prompts, choisirez différents modèles par nœud et ajouterez des tables de randomisation spécifiques au domaine ( files d'attente, priorités, types d'entreprise, etc.).

Schéma de sortie

Colonnes courantes que vous verrez dans nos exportations CSV/Parquet générées :

ticket_id (chaîne de 12–13 chiffres)
subject, body
language (DE/EN/FR/ES/PT)
type ∈ (Incident, Demande, Problème, Changement)
queue (spécifique au domaine, ex: Support Technique, Facturation, RH)
priority ∈ (Basse, Moyenne, Haute)
tags (tableau/liste de 4 à 8)
first_response (réponse de l'agent)

Exemple de jeu de données sur Kaggle

Nous avons utilisé ce générateur pour construire le jeu de données public Multilingual Customer Support Tickets, incluant les priorités, files d'attente, types, tags et types d'entreprise, idéal pour l'entraînement de modèles de classification et de priorisation de tickets. ➡️ Kaggle : Multilingual Customer Support Tickets

Inclut plusieurs langues et toutes les étiquettes listées ci-dessus
Des notebooks communautaires démontrent des cas d'utilisation de classification et de routage

Comment cela soutient Open Ticket AI

Open Ticket AI classifie la file d'attente et la priorité des tickets entrants. Les données synthétiques sont inestimables lorsque vous avez :

Pas ou peu d'historique étiqueté
Des données sensibles qui ne peuvent pas quitter votre infrastructure
Un besoin de classes équilibrées (ex: files d'attente/priorités rares)
Une couverture multilingue dès le premier jour

Nous utilisons régulièrement le générateur pour :

amorcer l'entraînement des modèles,
équilibrer les classes à longue traîne, et
simuler des opérations multilingues. Si vous souhaitez que nous générions des jeux de données sur mesure (votre domaine/files d'attente/priorités/tags, vos langues), nous le proposons en tant que service.

::: tip Services Besoin de données synthétiques spécifiques à votre domaine pour votre service d'assistance ? Nous concevrons des prompts, des nœuds et des tables de randomisation pour votre secteur, les intégrerons à votre pipeline de données et livrerons des fichiers CSV/Parquet prêts pour l'entraînement et l'évaluation. Contact : sales@softoft.de :::

Licence et disponibilité

Il est prévu que le Générateur de Données Synthétiques soit publié sous licence LGPL.
Si vous souhaitez un accès anticipé, une licence privée ou des modifications/extensions personnalisées, envoyez un e-mail à sales@softoft.de et nous nous en occuperons pour vous.

FAQ

Le jeu de données est-il « réel » ou « synthétique » ? Entièrement synthétique, produit par un pipeline LLM configurable.

Puis-je ajouter mes propres champs (par ex., Unité Commerciale, Impact, Urgence) ? Oui, en étendant les tables de randomisation et en ajoutant un nœud pour émettre les champs.

Puis-je contrôler le style et le ton ? Absolument. Les prompts sont définis par nœud, vous pouvez donc imposer le ton, la formalité, les régionalismes et la terminologie.

Comment maîtriser les coûts ? Utilisez le mode dev (un petit nombre de rows, des max_tokens plus bas), des seuils de coût et des modèles moins chers pour les premières itérations. Passez à votre combinaison de modèles préférée une fois que les résultats sont satisfaisants.

Génération de Données Synthétiques pour les Tickets de Support ​

Ce qu'il génère ​

Comment ça marche (en bref) ​

Flexibilité des modèles et des fournisseurs ​

Suivi des coûts et de l'utilisation (intégré) ​

Démarrage rapide ​

Schéma de sortie ​

Exemple de jeu de données sur Kaggle ​

Comment cela soutient Open Ticket AI ​

Licence et disponibilité ​

FAQ ​