Comment former votre propre ChatGPT avec vos données
ChatGPT, un terme inventé par OpenAI, est souvent utilisé comme un terme fourre-tout pour décrire n'importe quel grand modèle de langage (LLM). Il s'agit d'une interface de chatbot qui permet de communiquer avec des modèles d'IA de manière conversationnelle. Aujourd'hui, nous allons voir comment vous pouvez entraîner votre propre "ChatGPT" avec des données personnalisées en utilisant les ensembles de données de ChatBotKit.
Before we proceed, let's understand what datasets are in the context of AI.
Que sont les ensembles de données ?
A dataset is a structured collection of data that can be used to provide additional context and information to your AI bot. It could include information on a variety of topics, such as product information, customer service queries, or general knowledge. Bots access datasets as needed during a conversation to generate responses based on user input and the data.
Guide étape par étape pour utiliser les ensembles de données de ChatBotKit
1. Création d'un ensemble de données
Tout d'abord, vous devez créer un nouveau jeu de données en suivant les étapes suivantes :
- Go to "Datasets" from the navigation bar.
- Cliquez sur le bouton "Create Dataset".
- Donnez un nom à votre ensemble de données et fournissez une description.
- Enregistrez le jeu de données en cliquant sur le bouton "Créer".
2. Configuration des options avancées
ChatBotKit provides several advanced options you can configure, including:
- Record Max Tokens: Nombre maximal de jetons à utiliser pour les nouveaux enregistrements.
- Nombre maximal d'enregistrements et de jetons pour la recherche : Le nombre maximum d'enregistrements et de jetons à utiliser pour chaque recherche de données.
- Instructions de concordance et de non-concordance: Instructions facultatives à utiliser lorsqu'un enregistrement de données correspond ou ne correspond pas.
- Visibilité du jeu de données: Indiquez si vous souhaitez rendre votre jeu de données public ou le garder privé.
3. Ajout de fichiers aux ensembles de données
Les ensembles de données peuvent être accompagnés de fichiers joints, qui fournissent des informations et un contexte supplémentaires. Les types de fichiers pris en charge sont les suivants : .txt, .md, .csv, .json, .jsonl, .docx et .pdf. Ces fichiers sont automatiquement divisés en enregistrements, ce qui permet à l'ensemble de données d'être organisé et mis à jour.
4. Ajout d'intégrations
To automate the population of your datasets, you can take advantage of a variety of integrations. For instance, our Sitemap integration, also known as website importer, allows you to import data directly from your website into your dataset. Our Notion integration, known as Notion importer, enables you to seamlessly import data from your Notion documents. These integrations can significantly simplify the process of maintaining and updating your datasets, thus enhancing the performance and effectiveness of your bot.
5. Création d'un enregistrement d'ensemble de données
Vous pouvez également créer des enregistrements manuellement en suivant les étapes suivantes :
- Une fois votre jeu de données sélectionné, cliquez sur le bouton "Créer un enregistrement".
- Spécifiez le texte de l'enregistrement, en tenant compte du nombre total de jetons.
- Enregistrez le nouveau jeu de données en cliquant sur le bouton "Créer".
N'oubliez pas que si l'enregistrement de votre jeu de données comporte plus d'un paragraphe, vous pouvez le diviser en plusieurs enregistrements.
Dernières paroles
By following these steps, you can successfully create and train your own ChatGPT-like bot using your custom data with ChatBotKit Datasets. Remember to experiment, iterate, and improve your datasets and models over time to achieve the best results. Happy training!