Génération de Données Synthétiques pour les Tickets de Support
Créez des jeux de données de tickets de support multilingues et de haute qualité pour la classification, le routage et l'automatisation des réponses. Cette page décrit notre Générateur de Données Synthétiques basé sur Python et le jeu de données public que nous avons créé avec. Elle explique également comment le générateur soutient le flux d'entraînement d'Open Ticket AI et nos services commerciaux de génération de données.
INFO
- Objectif : Générer des tickets réalistes (sujet, corps, file d'attente, priorité, type, tags, langue et une première réponse d'agent IA).
- Langues : DE, EN, FR, ES, PT.
- Pipeline : Graphe de « nœuds » IA configurables (thème → e-mail → tags → paraphrase → traduction → réponse).
- Modèles : Fonctionne avec OpenAI, OpenRouter, Together… (GPT-4, Qwen, LLaMA, etc.).
- Contrôles : CLI intégrée, modes dev/prod, suivi des coûts et des tokens avec résumés monétaires.
- Licence : Publication prévue sous licence LGPL.
- Besoin de l'outil ou de modifications personnalisées ? → sales@softoft.de
Ce qu'il génère
- Champs principaux :
ticket_id
,subject
,body
- Étiquettes de classification :
type
(Incident/Demande/Problème/Changement),queue
(ex: Support Technique, Facturation, RH),priority
(Basse/Moyenne/Haute) - Langue :
language
(DE/EN/FR/ES/PT) - Tags : 4 à 8 tags de domaine/thème par ticket
- Réponse de l'agent : un message de première réponse rédigé par un assistant IA
Un exemple d'enregistrement (CSV) :
ticket_id,subject,body,language,type,queue,priority,tags,first_response
8934012332184,"VPN verbindet nicht","Seit dem Update keine Verbindung…","DE","Incident","IT / Security","High","vpn,update,remote-access,windows","Hallo! Bitte öffnen Sie die VPN-App…"
Les ID sont garantis uniques dans une plage de 12 à 13 chiffres, ce qui simplifie les jointures et les fusions entre les exécutions.
Comment ça marche (en bref)
Le générateur utilise un pipeline basé sur un graphe de petits « nœuds » testables. Chemin typique :
Thème → Brouillon de sujet → Brouillon du corps de l'e-mail → Tagging → Paraphrase → Traduction → Première réponse
Vous pouvez réorganiser les nœuds, supprimer des étapes ou ajouter les vôtres. Chaque « assistant » est configurable (prompts système/utilisateur, modèle/fournisseur, limites). Cela signifie que vous pouvez rapidement produire des tickets spécifiques à un domaine (par exemple, RH, santé, commerce de détail, secteur public) sans réécrire de code.
Flexibilité des modèles et des fournisseurs
Utilisez vos LLMs préférés :
- Fournisseurs : OpenAI, OpenRouter, Together (et d'autres via des adaptateurs)
- Modèles : Classe GPT-4, Qwen, LLaMA, etc.
- Changez les prompts par nœud pour augmenter la diversité et contrôler le ton, la terminologie et la structure.
Suivi des coûts et de l'utilisation (intégré)
- Comptabilité des tokens et des coûts par exécution (entrée vs. sortie) pour chaque modèle
- Seuils configurables qui avertissent/génèrent une erreur si une seule exécution dépasse une limite de coût
- Résumés monétaires (ex: USD, EUR) pour une budgétisation claire
- Modes Dev vs. Prod pour basculer entre de petites exécutions de test et la création de jeux de données complets
Démarrage rapide
Lancez une tâche de génération de jeu de données avec la CLI intégrée :
python -m ticket_generator
Idées de configuration minimale (pseudocode) :
# config/config.py (example)
RUN = {
"rows": 10_000, # total examples
"batch_size": 50, # lower for cheap dev runs
"languages": ["DE", "EN", "FR", "ES", "PT"],
"timezone": "Europe/Berlin",
"pipeline": [
"topic_node",
"email_draft_node",
"tagging_node",
"paraphrase_node",
"translate_node",
"first_response_node"
],
"models": {
"default": {
"provider": "openai",
"name": "gpt-4o-mini",
"max_tokens": 800
}
},
"cost_limits": {
"warn": 0.001, # USD per single assistant run
"error": 0.01
}
}
En pratique, vous ajusterez les prompts, choisirez différents modèles par nœud et ajouterez des tables de randomisation spécifiques au domaine ( files d'attente, priorités, types d'entreprise, etc.).
Schéma de sortie
Colonnes courantes que vous verrez dans nos exportations CSV/Parquet générées :
ticket_id
(chaîne de 12–13 chiffres)subject
,body
language
(DE/EN/FR/ES/PT)type
∈ (Incident, Demande, Problème, Changement)queue
(spécifique au domaine, ex: Support Technique, Facturation, RH)priority
∈ (Basse, Moyenne, Haute)tags
(tableau/liste de 4 à 8)first_response
(réponse de l'agent)
Exemple de jeu de données sur Kaggle
Nous avons utilisé ce générateur pour construire le jeu de données public Multilingual Customer Support Tickets, incluant les priorités, files d'attente, types, tags et types d'entreprise, idéal pour l'entraînement de modèles de classification et de priorisation de tickets. ➡️ Kaggle : Multilingual Customer Support Tickets
- Inclut plusieurs langues et toutes les étiquettes listées ci-dessus
- Des notebooks communautaires démontrent des cas d'utilisation de classification et de routage
Comment cela soutient Open Ticket AI
Open Ticket AI classifie la file d'attente et la priorité des tickets entrants. Les données synthétiques sont inestimables lorsque vous avez :
- Pas ou peu d'historique étiqueté
- Des données sensibles qui ne peuvent pas quitter votre infrastructure
- Un besoin de classes équilibrées (ex: files d'attente/priorités rares)
- Une couverture multilingue dès le premier jour
Nous utilisons régulièrement le générateur pour :
- amorcer l'entraînement des modèles,
- équilibrer les classes à longue traîne, et
- simuler des opérations multilingues. Si vous souhaitez que nous générions des jeux de données sur mesure (votre domaine/files d'attente/priorités/tags, vos langues), nous le proposons en tant que service.
::: tip Services Besoin de données synthétiques spécifiques à votre domaine pour votre service d'assistance ? Nous concevrons des prompts, des nœuds et des tables de randomisation pour votre secteur, les intégrerons à votre pipeline de données et livrerons des fichiers CSV/Parquet prêts pour l'entraînement et l'évaluation. Contact : sales@softoft.de :::
Licence et disponibilité
- Il est prévu que le Générateur de Données Synthétiques soit publié sous licence LGPL.
- Si vous souhaitez un accès anticipé, une licence privée ou des modifications/extensions personnalisées, envoyez un e-mail à
sales@softoft.de
et nous nous en occuperons pour vous.
FAQ
Le jeu de données est-il « réel » ou « synthétique » ? Entièrement synthétique, produit par un pipeline LLM configurable.
Puis-je ajouter mes propres champs (par ex., Unité Commerciale, Impact, Urgence) ? Oui, en étendant les tables de randomisation et en ajoutant un nœud pour émettre les champs.
Puis-je contrôler le style et le ton ? Absolument. Les prompts sont définis par nœud, vous pouvez donc imposer le ton, la formalité, les régionalismes et la terminologie.
Comment maîtriser les coûts ? Utilisez le mode dev (un petit nombre de rows
, des max_tokens
plus bas), des seuils de coût et des modèles moins chers pour les premières itérations. Passez à votre combinaison de modèles préférée une fois que les résultats sont satisfaisants.