[{"@type":"PropertyValue","name":"Volume des données","value":"500 000 images, avec 12 500 scènes naturelles et 12 500 documents par langue"},{"@type":"PropertyValue","name":"Répartition des langues","value":"Chinois traditionnel, japonais, coréen, indonésien, malais, thaï, vietnamien, français, allemand, italien, portugais, russe, espagnol, arabe, turc, polonais, néerlandais, grec, tchèque, philippin (tagalog)"},{"@type":"PropertyValue","name":"Environnement de collecte","value":"Scènes naturelles : slogans, tickets, affiches, panneaux d’avertissement, signalisation, emballages alimentaires, affichages publicitaires, arrêts et enseignes.Documents : fichiers électroniques, comptes rendus de réunions, rapports, modes d’emploi, manuels d’utilisation, livres, journaux et manuels scolaires"},{"@type":"PropertyValue","name":"Variété de captures","value":"Divers environnements naturels et angles de prise de vue"},{"@type":"PropertyValue","name":"Appareils de collecte","value":"Collecte via smartphones et scanners"},{"@type":"PropertyValue","name":"Angle de prise de vue","value":"Vue en contre-plongée, en plongée, et frontale"},{"@type":"PropertyValue","name":"Format des données","value":"Format image : .jpg et autres formats standard"},{"@type":"PropertyValue","name":"Précision","value":"Taux de précision de la collecte ≥ 97 %"}]
{"id":1759,"datatype":"1","titleimg":"https://fr.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"150","type2str":null,"dataname":"500 000 images OCR de scènes naturelles et de documents multi-pays","datazy":[{"title":"Volume des données","desc":"Volume des données","content":"500 000 images, avec 12 500 scènes naturelles et 12 500 documents par langue"},{"title":"Répartition des langues","desc":"Répartition des langues","content":"Chinois traditionnel, japonais, coréen, indonésien, malais, thaï, vietnamien, français, allemand, italien, portugais, russe, espagnol, arabe, turc, polonais, néerlandais, grec, tchèque, philippin (tagalog)"},{"title":"Environnement de collecte","desc":"Environnement de collecte","content":"Scènes naturelles : slogans, tickets, affiches, panneaux d’avertissement, signalisation, emballages alimentaires, affichages publicitaires, arrêts et enseignes.Documents : fichiers électroniques, comptes rendus de réunions, rapports, modes d’emploi, manuels d’utilisation, livres, journaux et manuels scolaires"},{"title":"Variété de captures","desc":"Variété de captures","content":"Divers environnements naturels et angles de prise de vue"},{"title":"Appareils de collecte","desc":"Appareils de collecte","content":"Collecte via smartphones et scanners"},{"title":"Angle de prise de vue","desc":"Angle de prise de vue","content":"Vue en contre-plongée, en plongée, et frontale"},{"title":"Format des données","desc":"Format des données","content":"Format image : .jpg et autres formats standard"},{"title":"Précision","desc":"Précision","content":"Taux de précision de la collecte ≥ 97 %"}],"datatag":"Natural scenes, Documents, OCR","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"Italian.jpg","url":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/Italian.jpg?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=4PPPhAekKh9bLbFrSmO6wAeEHmw%3D","intro":"","size":1809941,"progress":100,"type":"jpg"},{"name":"German.JPG","url":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/German.JPG?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=jtiszx3%2FxhwmY8Lf11kG1CS7kYA%3D","intro":"","size":4991935,"progress":100,"type":"jpg"},{"name":"German-1.jpg","url":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/German-1.jpg?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=bAy%2FbH26hDUdacLQwMwnMTvj390%3D","intro":"","size":963208,"progress":100,"type":"jpg"}],"officialSummary":"Ce jeu de données comprend 500 000 images issues de documents ou de scènes naturelles, couvrant 20 langues telles que le chinois traditionnel, le japonais, le coréen, l’indonésien, le malais, le thaï, le vietnamien ou encore le polonais. Grâce à sa diversité linguistique et contextuelle, ce corpus constitue une base robuste pour le développement de systèmes OCR multilingues performants.","dataexampl":null,"datakeyword":["Scènes naturelles"," documents"," OCR"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"ocr","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"500,000 Images - Natural Scenes and Documents OCR Data","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"Korean.jpg","url":"https://storage-product.datatang.com/damp/product/instructions_zh/20250408181303/Korean.jpg?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=rMkhxOhurCs7nUTnO5puCPLBo6s%3D","intro":"","size":1218381,"progress":100,"type":"jpg"}]}
500 000 images OCR de scènes naturelles et de documents multi-pays
Scènes naturelles
documents
OCR
Ce jeu de données comprend 500 000 images issues de documents ou de scènes naturelles, couvrant 20 langues telles que le chinois traditionnel, le japonais, le coréen, l’indonésien, le malais, le thaï, le vietnamien ou encore le polonais. Grâce à sa diversité linguistique et contextuelle, ce corpus constitue une base robuste pour le développement de systèmes OCR multilingues performants.
Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.
Spécifications
Volume des données
500 000 images, avec 12 500 scènes naturelles et 12 500 documents par langue