[{"@type":"PropertyValue","name":"Langue","value":"Indonésien, malais, thaï, vietnamien"},{"@type":"PropertyValue","name":"Volume des données","value":"Indonésien : 14 447 771 ; Malais : 1 239 420 ; Thaï : 6 467 564 ; Vietnamien : 8 942 813 ; Total >31 millions"},{"@type":"PropertyValue","name":"Champ","value":"URL, titre, date de publication, contenu de l’article, catégorie"},{"@type":"PropertyValue","name":"Format","value":"JSONL"}]
{"id":1625,"datatype":"1","titleimg":"https://fr.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"226","type1str":null,"type2":"227","type2str":null,"dataname":"Données textuelles d'actualités en langues d'asie du Sud-Est - 31 millions d'entrées","datazy":[{"title":"Langue","desc":"Langue","content":"Indonésien, malais, thaï, vietnamien"},{"title":"Volume des données","desc":"Volume des données","content":"Indonésien : 14 447 771 ; Malais : 1 239 420 ; Thaï : 6 467 564 ; Vietnamien : 8 942 813 ; Total >31 millions"},{"title":"Champ","desc":"Champ","content":"URL, titre, date de publication, contenu de l’article, catégorie"},{"title":"Format","desc":"Format","content":"JSONL"}],"datatag":"Minor languages,Southeast Asia,NEWS,Journalism","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"马来语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E9%A9%AC%E6%9D%A5%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=5rkbhwPKFeZUofOfpzcAP1%2B7Vas%3D","intro":"","size":44215,"progress":100,"type":"jpg"},{"name":"泰语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E6%B3%B0%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=1DspN1HLIWVpn%2FYfI6JAu0ZMbl0%3D","intro":"","size":103642,"progress":100,"type":"jpg"},{"name":"印尼语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E5%8D%B0%E5%B0%BC%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=VgoGApYUn6%2BChZRcnvN08SYI8cU%3D","intro":"","size":115113,"progress":100,"type":"jpg"}],"officialSummary":"Ce jeu de données multilingue couvre quatre langues d'Asie du Sud-Est : l'indonésien, le malais, le thaï et le vietnamien. Il contient plus de 31 millions d'entrées au format JSONL, chaque enregistrement étant sur une ligne distincte pour un traitement efficace. Les sources sont variées et couvrent de nombreux sujets d'actualité, reflétant les dynamiques sociales, les tendances culturelles et l'évolution économique de la région. Ce jeu de données aide les grands modèles à améliorer leurs capacités multilingues, à enrichir leurs connaissances culturelles, à optimiser leurs performances et à étendre leurs applications en Asie du Sud-Est, favorisant ainsi la recherche interlinguistique.","dataexampl":null,"datakeyword":["Langues minoritaires"," Asie du Sud-Est"," actualités"," journalisme"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Type","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"llm","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"31 million Southeast Asian language news text dataset","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"越南语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E8%B6%8A%E5%8D%97%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=HZvCPn1N1QW%2BocWDBvsxQJcoJzc%3D","intro":"","size":108698,"progress":100,"type":"jpg"}]}
Données textuelles d'actualités en langues d'asie du Sud-Est - 31 millions d'entrées
Langues minoritaires
Asie du Sud-Est
actualités
journalisme
Ce jeu de données multilingue couvre quatre langues d'Asie du Sud-Est : l'indonésien, le malais, le thaï et le vietnamien. Il contient plus de 31 millions d'entrées au format JSONL, chaque enregistrement étant sur une ligne distincte pour un traitement efficace. Les sources sont variées et couvrent de nombreux sujets d'actualité, reflétant les dynamiques sociales, les tendances culturelles et l'évolution économique de la région. Ce jeu de données aide les grands modèles à améliorer leurs capacités multilingues, à enrichir leurs connaissances culturelles, à optimiser leurs performances et à étendre leurs applications en Asie du Sud-Est, favorisant ainsi la recherche interlinguistique.
Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.