[{"@type":"PropertyValue","name":"Contenu des données","value":"Données d’instructions de sécurité du contenu pour les grands modèles de langage"},{"@type":"PropertyValue","name":"Volume des données","value":"Environ 570 000 paires de questions-réponses couvrant 31 grandes catégories définies par l’Administration du cyberespace, ainsi que des catégories supplémentaires"},{"@type":"PropertyValue","name":"Type de données","value":"Total de 41 catégories principales"},{"@type":"PropertyValue","name":"Méthode de collecte","value":"Rédigé par des annotateurs professionnels"},{"@type":"PropertyValue","name":"Format de stockage","value":"Excel"},{"@type":"PropertyValue","name":"Langue","value":"Chinois"}]
{"id":1349,"datatype":"1","titleimg":"https://fr.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"226","type1str":null,"type2":"228","type2str":null,"dataname":"Corpus textuel relatif à la sécurité des contenus pour les grands modèles","datazy":[{"title":"Contenu des données","desc":"Contenu des données","content":"Données d’instructions de sécurité du contenu pour les grands modèles de langage"},{"title":"Volume des données","desc":"Volume des données","content":"Environ 570 000 paires de questions-réponses couvrant 31 grandes catégories définies par l’Administration du cyberespace, ainsi que des catégories supplémentaires"},{"title":"Type de données","desc":"Type de données","content":"Total de 41 catégories principales"},{"title":"Méthode de collecte","desc":"Méthode de collecte","content":"Rédigé par des annotateurs professionnels"},{"title":"Format de stockage","desc":"Format de stockage","content":"Excel"},{"title":"Langue","desc":"Langue","content":"Chinois"}],"datatag":"Content safety,Text,LLM","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"1.png","url":"https://storage-product.datatang.com/damp/product/sample_presentation/20250728171244/1.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=lnfxkT02wujIvCXVtMn1z%2FLf1FU%3D","intro":"","size":76405,"progress":100,"type":"jpg"},{"name":"2.png","url":"https://storage-product.datatang.com/damp/product/sample_presentation/20250728171244/2.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=V%2B9qZ5uTxJ0SrEHqswGTY7v6HBo%3D","intro":"","size":78372,"progress":100,"type":"jpg"},{"name":"3.png","url":"https://storage-product.datatang.com/damp/product/sample_presentation/20250728171244/3.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=TGcBdIpdyEbp87EwlBGD6pwZvMA%3D","intro":"","size":72724,"progress":100,"type":"jpg"}],"officialSummary":"Ce jeu de données contient environ 570 000 échantillons textuels axés sur la sécurité des contenus, conçus pour l’entraînement de grands modèles de langage (LLM) tels que ChatGPT. Il offre des ressources précieuses pour la modération de contenu, la détection de propos sensibles et la classification contextuelle. Ce corpus constitue une base stratégique pour le développement de modèles conformes aux normes éthiques et réglementaires en vigueur.","dataexampl":null,"datakeyword":["Données textuelles relatives à la sûreté des contenus générés par les grands modèles de langage (LLM)"," grand modèle de langage"," grand modèle"," données ChatGPT"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Type","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"llm","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"Chinese Large Language Model content safety considerations text data","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"]}
Corpus textuel relatif à la sécurité des contenus pour les grands modèles
Données textuelles relatives à la sûreté des contenus générés par les grands modèles de langage (LLM)
grand modèle de langage
grand modèle
données ChatGPT
Ce jeu de données contient environ 570 000 échantillons textuels axés sur la sécurité des contenus, conçus pour l’entraînement de grands modèles de langage (LLM) tels que ChatGPT. Il offre des ressources précieuses pour la modération de contenu, la détection de propos sensibles et la classification contextuelle. Ce corpus constitue une base stratégique pour le développement de modèles conformes aux normes éthiques et réglementaires en vigueur.
Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.
Spécifications
Contenu des données
Données d’instructions de sécurité du contenu pour les grands modèles de langage
Volume des données
Environ 570 000 paires de questions-réponses couvrant 31 grandes catégories définies par l’Administration du cyberespace, ainsi que des catégories supplémentaires