retour aux documents

Ensembles de données

Aperçu de ce que sont les ensembles de données et de la manière dont ils peuvent être utilisés dans les conversations avec les chatbots. Apprenez à ajouter des informations contextuelles à votre chatbot.

Un ensemble de données est une collection structurée de données qui peut être utilisée pour fournir un contexte et des informations supplémentaires à votre robot d'IA. C'est un moyen pour les robots d'accéder à des données pertinentes et de les utiliser pour générer des réponses basées sur les entrées de l'utilisateur. Un ensemble de données peut inclure des informations sur une variété de sujets, tels que des informations sur les produits, des demandes de service à la clientèle ou des connaissances générales.

Bots access datasets as needed during a conversation. A bot can retrieve specific data points or use the data to generate responses based on user input and the data. For example, if a user asks about the price of a product, the bot can use data from a dataset to provide the correct price.

To access a dataset, you must specify the dataset id when starting a conversation with a bot. There is only one dataset allowed per conversation. The number of datasets you can have is determined by your monthly membership or subscription plan. If you need more datasets, you can upgrade your plan or contact customer service for more information.

Comment créer un jeu de données

Suivez ces instructions pour créer un nouveau jeu de données.

  1. Got to "Datasets" from the navigation bar.
  2. Cliquez sur le bouton "Create Dataset".
  3. Donnez un nom à votre ensemble de données et fournissez une description.
  4. Enregistrez le jeu de données en cliquant sur le bouton "Créer".

Options avancées

Il existe plusieurs options avancées que vous pouvez configurer.

OptionDescription
Record Max TokensNombre maximal de jetons à utiliser pour les nouveaux enregistrements. Cette valeur n'est prise en compte que lors de l'importation de données à partir de fichiers et d'intégrations.
Score minimum de rechercheLe score par lequel les résultats de la recherche doivent être filtrés. Cette valeur dépend du type de magasin de données.
Recherche dans les dossiers MaxLe nombre maximum d'enregistrements à retourner pour chaque recherche d'ensemble de données.
Recherche de jetons maximauxLe nombre maximum de jetons à utiliser pour tous les enregistrements trouvés. Il est recommandé que cette valeur soit au moins égale à Record Max Tokens to kens afin de correspondre à un seul enregistrement.
SéparateursUne liste de séparateurs à utiliser lors de la segmentation du texte. Le texte sera découpé en morceaux en commençant par le premier séparateur trouvé. Les séparations suivantes seront effectuées en utilisant le séparateur suivant trouvé, etc. Vous pouvez utiliser des séquences d'échappement comme \n pour la nouvelle ligne, \t pour tabulation, etc. Vous devez au moins inclure les séparateurs suivants : "\N- \N- \N- \N- \N- \N- \N-" et "\n". S'il n'est pas spécifié, les séparateurs par défaut sont utilisés.
Instructions pour le matchInstruction bot facultative à utiliser lorsqu'une correspondance avec l'enregistrement de l'ensemble de données est trouvée.
Instruction de non-concordanceInstruction bot facultative à utiliser lorsqu'aucun enregistrement de jeu de données approprié n'est trouvé.
Visibilité des donnéesIndiquez si vous souhaitez rendre votre jeu de données public ou privé. Les jeux de données publics peuvent être trouvés et utilisés par la communauté.
IcôneCette icône sera utilisée dans la liste des ensembles de données ou lors de l'affichage du hub des ensembles de données.

Dossiers

Datasets can have attached files, which can provide additional information and context to the chatbot. These files are automatically split into records, ensuring that the dataset stays organized and up to date. Whenever the files change, the corresponding dataset records are kept in sync, ensuring that the chatbot's responses are always based on the most recent information.

Les types de fichiers suivants sont pris en charge.

Type de fichierDescription
texte (.txt)Fichier texte brut
markdown (.md)Fichier formaté Markdown
csv (.csv)Fichier de valeurs séparées par des virgules
JSON (.json)Fichier JavaScript Object Notation
JSONL (.jsonl)Fichier JSON Lines
DOCX (.docx) DOC (.doc)Fichier Microsoft Word
PPTX (.pptx) PPT (.ppt)Fichier de document Microsoft Powerpoint
XLSX (.xlsx) XLS (.xls)Fichier de document Microsoft Excel
PDF (.pdf)Fichier Portable Document Format

Comment créer un enregistrement d'ensemble de données

Vous avez maintenant un ensemble de données vide, mais vous n'avez pas d'enregistrements. La création d'enregistrements est également très simple.

  1. Une fois votre jeu de données sélectionné, cliquez sur le bouton "Créer un enregistrement".
  2. Spécifiez le texte de l'enregistrement, en tenant compte du nombre total de jetons.
  3. Enregistrez le nouveau jeu de données en cliquant sur le bouton "Créer".

Fractionnement des enregistrements d'un ensemble de données

Si vous avez plus d'un paragraphe dans votre enregistrement, vous pouvez le diviser en plusieurs enregistrements. Ce n'est pas toujours nécessaire, mais cela peut aider à mieux organiser votre ensemble de données. Cette opération est effectuée automatiquement en fonction des paramètres de l'ensemble de données.

Si vous utilisez l'importation d'URL ou si vous souhaitez saisir l'enregistrement manuellement, vous disposez de quelques options supplémentaires. Saisissez ou importez simplement l'enregistrement. Cliquez ensuite sur le bouton "Créer N enregistrements". L'enregistrement sera divisé en plusieurs enregistrements en fonction des sauts de paragraphe que vous avez dans l'enregistrement d'origine.

Autocomplétion des enregistrements de données

We know that populating your Dataset can be hard especially when you do not have readily available data. This is why we have introduced the Record Autocomplete feature. As you type you can press CTRL+Enter or ⌘+Enter (if you are on Mac) to complete the text using the same generative AI models that are powering your chatbot.

Importation d'enregistrements de données

Vous pouvez importer un jeu de données à partir d'une page web ou d'un document. Pour ce faire, cliquez simplement sur le bouton "Importer". Tapez l'adresse de la page web que vous souhaitez importer. Pour importer un document, il suffit de le sélectionner dans votre système de fichiers. Cliquez ensuite sur le bouton "Importer".

Résumé

In summary, datasets are structured collections of data that can be used to provide additional context and information to a chatbot. Chatbots can use datasets to retrieve specific data points or generate responses based on user input and the data. You can create and customize your own datasets to suit the needs of your chatbot and your users, and you can access them when starting a conversation with a chatbot by specifying the dataset id. There is a limit to the number of datasets you can use, which is determined by your monthly membership or subscription plan.