en

Please fill in your name

Mobile phone format error

Veuillez entrer le téléphone

Veuillez entrer le nom de votre entreprise

Veuillez entrer votre e-mail professionnel

Veuillez entrer l'exigence de données

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

L'exigence de données ne peut pas faire moins de 5 mots et ne peut pas être constituée uniquement de chiffres

Jeux de données pour LLM

Améliorez instantanément les performances de votre modèle IA avec des Jeux de données prêts à l’emploi de haute qualité.

Type

Tout
23
Légende d’image
19
Ensembles de données SFT
7
Textes de pré-entraînement
19

250 000 questions de finance – banque de données

Ce corpus se concentre sur le domaine financier, couvrant des sous-thèmes tels que les produits, les marchés, les comportements et les principes fondamentaux. Il comprend un total de 250 000 questions, réparties équitablement entre les QCM et les questions ouvertes (125 000 chacune). Stockées au format JSONL, ces données offrent une ressource riche et structurée pour la recherche académique, la formation spécialisée et le développement de compétences en finance.
Finance questions d'examen sélection questions-réponses

1,5 million de questions de test coréennes, traitées de manière structurée

Données de questions de test coréennes traitées de manière structurée, environ 1,5 million de questions. Chaque question contient le type de question, la question, la réponse, l'analyse, etc. Matières : école primaire (langue nationale, maths, anglais, sciences sociales, sciences naturelles), collège, lycée (différentes matières). Types de questions : choix multiple, remplissage, vrai/faux, réponse libre. Utilisable pour l'enrichissement des connaissances des LLM.
Questions K12 texte LLM coréen

10 000 groupes de données Q/A pour diagrammes numériques

10 000 groupes de données Q/A pour diagrammes numériques : diagrammes linéaires, diagrammes à barres, diagrammes circulaires, diagrammes de dispersion, combinaisons, tableaux. Chaque image deux tours Q/A : un pour lire les valeurs, un pour le calcul.
Questions-réponses texte japonais

32 millions de questions en sciences et ingénierie — structuration et traitement textuel

Ce jeu de données comprend 32 millions de questions en mathématiques, physique, chimie et biologie, du niveau primaire à universitaire. Chaque question est annotée avec : énoncé, réponse, explication, type, matière et niveau. Cette ressource offre un socle massif pour l’enrichissement des compétences STEM des grands modèles.
Questions de sciences LLM texte

1 million de textes de problèmes de programmation chinois, traités de manière structurée

Données textuelles de problèmes de programmation chinois traitées de manière structurée. Langues : C, C++, Python, Java, JavaScript. Chaque problème contient la question, la réponse, l'analyse, le champ de langue. Aide les modèles à développer des compétences en programmation.
Questions de programmation LLM texte

100 000 ensembles de données textuelles pour le réglage fin par instruction de grands modèles linguistiques en anglais

L'ensembles de données textuelles pour le réglage fin par instruction de grands modèles linguistiques en anglais, les ressources d'entraînement spécialement conçues pour l'optimisation des modèles d'IA, améliorent considérablement la compréhension et la capacité d'exécution des instructions du modèle, et sont revérifiés par des experts linguistiques et des ingénieurs en IA, répondant parfaitement aux besoins de réglage fin des modèles pré-entraînés courants.
Ensemble de données de réglage fin LLM réglage fin supervisé Ensemble de données SFT données de réglage des instructions en anglais données LLM du domaine général réglage fin du modèle d'IA données d'entraînement de suivi des instructions ensemble de données de réglage GPT

50 000 ensembles de données d’édition d’images

50 000 ensembles de données d’édition d’images, incluant la suppression, l’ajout, la modification et le remplacement d’objets. Les cibles concernent des personnes, animaux, produits, végétaux et paysages. Chaque modification est accompagnée d’une annotation précise : détourage, suppression, insertion ou remplacement. Ce corpus est adapté à la synthèse d’images, à l’enrichissement des données et à la génération de scènes virtuelles.
Édition d’images

100 000 paires de textes complexes pour l'ajustement SFT dans le domaine général des grands modèles chinois

Ce corpus comprend 100 000 paires de prompts complexes rédigés en chinois, comportant entre 50 et 400 caractères chacun, avec au moins trois contraintes explicites par consigne. Conçu pour entraîner les modèles à suivre des instructions complexes, le jeu couvre quatre grandes catégories : la génération de texte (rédaction de communiqués, plans d’interview, création de contenus, révision, poésie, plans d’étude, rédaction administrative, etc.), la réécriture (paraphrase, correction, fusion de phrases, simplification), le résumé (synthèse de contenu), et l’extraction (éléments d’événement, opinions, mots-clés, entités, positionnement). Toutes les consignes ont été rédigées manuellement afin de garantir diversité et pertinence.
LLM suivi des instructions SFT

114 000 énoncés d'examen de concours en chinois — structuration et traitement textuel

Ce jeu de données réunit 114 000 questions structurées issues de concours académiques, couvrant les mathématiques, la physique, la chimie et la biologie du primaire au secondaire. Chaque question inclut les champs : énoncé, réponse, explication, matière, niveau scolaire et type. Cette ressource vise à enrichir les connaissances disciplinaires des grands modèles et à soutenir leur développement cognitif global.
Questions de concours LLM texte

loading

Personnalisez vos données dès maintenant

Pourquoi choisir des jeux de données prêts à l'emploi

  • Droits d'auteur

    Droits d'auteur

    Droits d’auteur clairs vérifiables à tout moment
  • Sécurité

    Sécurité

    Correctement autorisés Sécurisés à l’usage
  • Professionnel

    Professionnel

    Conçus et produits par des experts en données d’IA
  • Diversité

    Diversité

    Collectés à partir de diverses scènes réelles
  • Rentabilité

    Rentabilité

    Plus rentable Que les données personnalisées
  • Efficacité

    Efficacité

    Prêt à l'emploi, livré en quelques secondes
e99520be-5745-467f-851f-0b22f3c1441b