fr

Please fill in your name

Mobile phone format error

Veuillez entrer le téléphone

Veuillez entrer le nom de votre entreprise

Veuillez entrer votre e-mail professionnel

Veuillez entrer l'exigence de données

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

L'exigence de données ne peut pas faire moins de 5 mots et ne peut pas être constituée uniquement de chiffres

Accueil > Toutes Catégories > LLM > 100 000 paires de textes complexes pour l'ajustement SFT dans le domaine général des grands modèles chinois

100 000 paires de textes complexes pour l'ajustement SFT dans le domaine général des grands modèles chinois

LLM

suivi des instructions

SFT

Ce corpus comprend 100 000 paires de prompts complexes rédigés en chinois, comportant entre 50 et 400 caractères chacun, avec au moins trois contraintes explicites par consigne. Conçu pour entraîner les modèles à suivre des instructions complexes, le jeu couvre quatre grandes catégories : la génération de texte (rédaction de communiqués, plans d’interview, création de contenus, révision, poésie, plans d’étude, rédaction administrative, etc.), la réécriture (paraphrase, correction, fusion de phrases, simplification), le résumé (synthèse de contenu), et l’extraction (éléments d’événement, opinions, mots-clés, entités, positionnement). Toutes les consignes ont été rédigées manuellement afin de garantir diversité et pertinence.

Données payantes

Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.

Spécifications

Spécifications

Volume des données

100 000

Finalité des données

Destiné à entraîner la capacité des grands modèles à suivre des instructions

Contenu des données

Prompts complexes (50–400 caractères), contenant au moins trois contraintes par prompt

Couverture des catégories

Types : génération (communiqués, plans d’entretien, rédaction de textes, correction, essais bilingues, grammaire, rapports, plans d’étude, poésie, cuisine, publicité, argumentaires de vente, écriture officielle, relecture, Q&A réglementaire, etc.), réécriture (révision, correction, fusion, simplification), résumé, extraction (éléments d’événements, opinions, mots-clés, positions, entités)

Mode de production

Tous les prompts sont rédigés manuellement pour assurer une large diversité

Langue

Chinois

Échantillon

Exemple

Données recommandées

Jeux de données recommandés

100 000 ensembles de données textuelles pour le réglage fin par instruction de grands modèles linguistiques en anglais

L'ensembles de données textuelles pour le réglage fin par instruction de grands modèles linguistiques en anglais, les ressources d'entraînement spécialement conçues pour l'optimisation des modèles d'IA, améliorent considérablement la compréhension et la capacité d'exécution des instructions du modèle, et sont revérifiés par des experts linguistiques et des ingénieurs en IA, répondant parfaitement aux besoins de réglage fin des modèles pré-entraînés courants.

Ensemble de données de réglage fin LLM réglage fin supervisé Ensemble de données SFT données de réglage des instructions en anglais données LLM du domaine général réglage fin du modèle d'IA données d'entraînement de suivi des instructions ensemble de données de réglage GPT

50 000 ensembles de données d’édition d’images

50 000 ensembles de données d’édition d’images, incluant la suppression, l’ajout, la modification et le remplacement d’objets. Les cibles concernent des personnes, animaux, produits, végétaux et paysages. Chaque modification est accompagnée d’une annotation précise : détourage, suppression, insertion ou remplacement. Ce corpus est adapté à la synthèse d’images, à l’enrichissement des données et à la génération de scènes virtuelles.

Édition d’images

480 000 paires d'ensembles de données textuelles corrigées en allemand, espagnol, français, italien, etc.

Ensemble de données axé sur quatre langues européennes principales (français, allemand, espagnol, italien), 480 000 paires de texte original/texte corrigé. Chaque ensemble de données au format JSON avec les champs "input" (original) et "output" (corrigé). Pour TAL, traduction automatique, enseignement des langues.

Allemand français espagnol italien relecture

Veuillez nous indiquer vos besoins particuliers

Niveau de maturité du projet

Phase d’exploration initiale (spécifications non définies)

Objectifs définis, besoin d’un accompagnement professionnel

Phase de développement ou d’optimisation

Experts en données et annotation avec des spécifications claires

Nom complet *

Numéro de Téléphone*

Nom de l’entreprise *

E-mail de l’entreprise *

Exigences en matière de données *

En soumettant, j’accepte la politique de confidentialité

Abonnez-vous à notre newsletter

Soyez les premiers à recevoir les nouveautés produits, solutions de données et actualités de Nexdata

Jeux de données Prêts à l'Emploi: Toutes Catégories; LLM; Vision par ordinateur; Reconnaissance vocale; Synthèse vocale; OCR; Dictionnaire de prononciation; NLU

Service de Données: Données 3D Point Cloud; Données de Vue de Rue; Données OCR; Reconnaissance comportementale; Reconnaissance d’identité; Reconnaissance Vocale; Données Synthèse Vocale; Données multimodales

Industries: IA Incarnée; IA Générative; Véhicules Autonomes; AR/VR; IA Conversationnelle; Système Domotique; Commerce de Détail; Santé Intelligence

Entreprise: À Propos de Nous; Actualités; Partenaires; Qualité & Sécurité; Événements
Liens Utiles: OPENMPD; DataPlus; Datarade

Platforme: Platforme
Compétition: Compétition
Ressources: Jeux de données sponsorisés

Améliorez votre IA avec de meilleures données

+1(626)594-5598

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

Copyright © 2023 NEXDATA TECHNOLOGY INC

Navigation du site Conditions générales d’utilisation

Nous utilisons des cookies pour améliorer votre navigation, diffuser des publicités ou contenus personnalisés et analyser notre trafic. En cliquant "Accepter Tout", vous consentez à notre utilisation des cookies

192a73c2-dca2-4e00-b1d6-bef815ca1286

789f30bd-1284-4681-9b85-06355464c882