[{"@type":"PropertyValue","name":"Volume des données","value":"100 000"},{"@type":"PropertyValue","name":"Finalité des données","value":"Destiné à entraîner la capacité des grands modèles à suivre des instructions"},{"@type":"PropertyValue","name":"Contenu des données","value":"Prompts complexes (50–400 caractères), contenant au moins trois contraintes par prompt"},{"@type":"PropertyValue","name":"Couverture des catégories","value":"Types : génération (communiqués, plans d’entretien, rédaction de textes, correction, essais bilingues, grammaire, rapports, plans d’étude, poésie, cuisine, publicité, argumentaires de vente, écriture officielle, relecture, Q&A réglementaire, etc.), réécriture (révision, correction, fusion, simplification), résumé, extraction (éléments d’événements, opinions, mots-clés, positions, entités)"},{"@type":"PropertyValue","name":"Mode de production","value":"Tous les prompts sont rédigés manuellement pour assurer une large diversité"},{"@type":"PropertyValue","name":"Langue","value":"Chinois"}]
{"id":1456,"datatype":"1","titleimg":"https://fr.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"226","type1str":null,"type2":"228","type2str":null,"dataname":"100 000 paires de textes complexes pour l'ajustement SFT dans le domaine général des grands modèles chinois","datazy":[{"title":"Volume des données","desc":"Volume des données","content":"100 000"},{"title":"Finalité des données","desc":"Finalité des données","content":"Destiné à entraîner la capacité des grands modèles à suivre des instructions"},{"title":"Contenu des données","desc":"Contenu des données","content":"Prompts complexes (50–400 caractères), contenant au moins trois contraintes par prompt"},{"title":"Couverture des catégories","desc":"Couverture des catégories","content":"Types : génération (communiqués, plans d’entretien, rédaction de textes, correction, essais bilingues, grammaire, rapports, plans d’étude, poésie, cuisine, publicité, argumentaires de vente, écriture officielle, relecture, Q&A réglementaire, etc.), réécriture (révision, correction, fusion, simplification), résumé, extraction (éléments d’événements, opinions, mots-clés, positions, entités)"},{"title":"Mode de production","desc":"Mode de production","content":"Tous les prompts sont rédigés manuellement pour assurer une large diversité"},{"title":"Langue","desc":"Langue","content":"Chinois"}],"datatag":"LLM,Instruction-Following,SFT","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"生成类样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718135224/%E7%94%9F%E6%88%90%E7%B1%BB%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=j2dYaUZzrFuOBpHy%2BbE9IzU0uZU%3D","intro":"","size":58978,"progress":100,"type":"jpg"},{"name":"提取类样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718135224/%E6%8F%90%E5%8F%96%E7%B1%BB%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=H5qxm0wOjJhXG2j%2Fs%2FjYogclTzE%3D","intro":"","size":29336,"progress":100,"type":"jpg"},{"name":"摘要类样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718135224/%E6%91%98%E8%A6%81%E7%B1%BB%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=vLGxT%2FdoEGEPX5%2F0WVVEAF7y7AE%3D","intro":"","size":65076,"progress":100,"type":"jpg"}],"officialSummary":"Ce corpus comprend 100 000 paires de prompts complexes rédigés en chinois, comportant entre 50 et 400 caractères chacun, avec au moins trois contraintes explicites par consigne. Conçu pour entraîner les modèles à suivre des instructions complexes, le jeu couvre quatre grandes catégories : la génération de texte (rédaction de communiqués, plans d’interview, création de contenus, révision, poésie, plans d’étude, rédaction administrative, etc.), la réécriture (paraphrase, correction, fusion de phrases, simplification), le résumé (synthèse de contenu), et l’extraction (éléments d’événement, opinions, mots-clés, entités, positionnement). Toutes les consignes ont été rédigées manuellement afin de garantir diversité et pertinence.","dataexampl":null,"datakeyword":["LLM"," suivi des instructions"," SFT"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Type","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"llm","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"100,000 Instruction-Following Evaluation SFT for Chinese LLM Text Data","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"重写类样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718135224/%E9%87%8D%E5%86%99%E7%B1%BB%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=SgPlb%2FRyoOnK4YX2Efnr0ZuCJgY%3D","intro":"","size":32077,"progress":100,"type":"jpg"}]}
100 000 paires de textes complexes pour l'ajustement SFT dans le domaine général des grands modèles chinois
LLM
suivi des instructions
SFT
Ce corpus comprend 100 000 paires de prompts complexes rédigés en chinois, comportant entre 50 et 400 caractères chacun, avec au moins trois contraintes explicites par consigne. Conçu pour entraîner les modèles à suivre des instructions complexes, le jeu couvre quatre grandes catégories : la génération de texte (rédaction de communiqués, plans d’interview, création de contenus, révision, poésie, plans d’étude, rédaction administrative, etc.), la réécriture (paraphrase, correction, fusion de phrases, simplification), le résumé (synthèse de contenu), et l’extraction (éléments d’événement, opinions, mots-clés, entités, positionnement). Toutes les consignes ont été rédigées manuellement afin de garantir diversité et pertinence.
Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.
Spécifications
Volume des données
100 000
Finalité des données
Destiné à entraîner la capacité des grands modèles à suivre des instructions
Contenu des données
Prompts complexes (50–400 caractères), contenant au moins trois contraintes par prompt