[{"@type":"PropertyValue","name":"Taille des données","value":"500 000 feuilles, avec une répartition de 20 000 à 25 000 feuilles dans chaque langue"},{"@type":"PropertyValue","name":"Répartition des langues","value":"Allemand, français, portugais, italien, espagnol, indonésien, russe, japonais, coréen, vietnamien, polonais, tchèque, turc, philippin, néerlandais, hindi, malais, kazakh, slovaque, roumain, ouzbek"},{"@type":"PropertyValue","name":"Environnement de collection","value":"Scènes photographiques de documents : livres, journaux, divers types de cartes, factures, etc. ; Scènes naturelles : affiches, avertissements, panneaux de signalisation, emballages alimentaires, panneaux d'affichage, panneaux d'arrêt, panneaux, etc. Scènes électroniques : captures d'écran de téléphones portables, captures d'écran d'ordinateurs, documents électroniques"},{"@type":"PropertyValue","name":"Diversité d'acquisition","value":"Plusieurs types de données, plusieurs angles de prise de vue et plusieurs langues"},{"@type":"PropertyValue","name":"Appareil d'acquisition","value":"Téléphone portable, ordinateur"},{"@type":"PropertyValue","name":"Format des données","value":"Le format de l'image est .jpg et les autres formats généraux, et le format du document annoté est .json"},{"@type":"PropertyValue","name":"Contenu de l'annotation","value":"Annotation au niveau du quadrilatère ou du polygone au niveau de la ligne (colonne), transcription du contenu au niveau de la ligne (colonne)"},{"@type":"PropertyValue","name":"Taux de précision","value":"La précision du cadre de détection au niveau de la ligne n'est pas inférieure à 97 %, et la boîte est correctement divisée et l'écart environnant ne dépasse pas 5 pixels. La précision de transcription au niveau de la ligne et au niveau des caractères n'est pas inférieure à 97 %."}]
{"id":1862,"datatype":"1","titleimg":"https://fr.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"150","type2str":null,"dataname":"500 000 images de données OCR annotées provenant de scènes naturelles, de scènes de documents photographiés et de scènes électroniques dans 21 pays","datazy":[{"title":"Taille des données","desc":"Taille des données","content":"500 000 feuilles, avec une répartition de 20 000 à 25 000 feuilles dans chaque langue"},{"title":"Répartition des langues","desc":"Répartition des langues","content":"Allemand, français, portugais, italien, espagnol, indonésien, russe, japonais, coréen, vietnamien, polonais, tchèque, turc, philippin, néerlandais, hindi, malais, kazakh, slovaque, roumain, ouzbek"},{"title":"Environnement de collection","desc":"Environnement de collection","content":"Scènes photographiques de documents : livres, journaux, divers types de cartes, factures, etc. ; Scènes naturelles : affiches, avertissements, panneaux de signalisation, emballages alimentaires, panneaux d'affichage, panneaux d'arrêt, panneaux, etc. Scènes électroniques : captures d'écran de téléphones portables, captures d'écran d'ordinateurs, documents électroniques"},{"title":"Diversité d'acquisition","desc":"Diversité d'acquisition","content":"Plusieurs types de données, plusieurs angles de prise de vue et plusieurs langues"},{"title":"Appareil d'acquisition","desc":"Appareil d'acquisition","content":"Téléphone portable, ordinateur"},{"title":"Format des données","desc":"Format des données","content":"Le format de l'image est .jpg et les autres formats généraux, et le format du document annoté est .json"},{"title":"Contenu de l'annotation","desc":"Contenu de l'annotation","content":"Annotation au niveau du quadrilatère ou du polygone au niveau de la ligne (colonne), transcription du contenu au niveau de la ligne (colonne)"},{"title":"Taux de précision","desc":"Taux de précision","content":"La précision du cadre de détection au niveau de la ligne n'est pas inférieure à 97 %, et la boîte est correctement divisée et l'écart environnant ne dépasse pas 5 pixels. La précision de transcription au niveau de la ligne et au niveau des caractères n'est pas inférieure à 97 %."}],"datatag":"OCR,21 countries,Natural Scenes,Document Photograph Scenes,Electronic Scenes","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[],"officialSummary":"500 000 images de données OCR annotées provenant de scènes naturelles, de scènes de documents photographiés et de scènes électroniques dans 21 pays. Les données contiennent 21 langues, et le nombre de feuilles dans chaque langue est réparti entre 20 000 et 25 000. Les types de données incluent les scènes naturelles, les scènes photo de document et les scènes électroniques. La diversité des données comprend plusieurs types de données, plusieurs angles de prise de vue et plusieurs langues. En termes d'annotation, l'annotation quadrilatérale ou polygonale au niveau de la ligne (colonne) et la transcription du contenu au niveau de la ligne (colonne) sont adoptées. Les données peuvent être utilisées pour des tâches de reconnaissance OCR multilingues.","dataexampl":null,"datakeyword":["ensemble de données OCR multilingues"," données de reconnaissance de texte de scène"," ensemble de données OCR de document"," données OCR d'écran électronique"," ensemble de données OCR 21 langues"," données d'entraînement OCR AI"," ensemble de données de reconnaissance de texte"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"ocr","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"500,000 Images - Natural Scenes & Document Photograph Scenes & Electronic Scenes OCR Data of 21 Countries","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"]}
500 000 images de données OCR annotées provenant de scènes naturelles, de scènes de documents photographiés et de scènes électroniques dans 21 pays
ensemble de données OCR multilingues
données de reconnaissance de texte de scène
ensemble de données OCR de document
données OCR d'écran électronique
ensemble de données OCR 21 langues
données d'entraînement OCR AI
ensemble de données de reconnaissance de texte
500 000 images de données OCR annotées provenant de scènes naturelles, de scènes de documents photographiés et de scènes électroniques dans 21 pays. Les données contiennent 21 langues, et le nombre de feuilles dans chaque langue est réparti entre 20 000 et 25 000. Les types de données incluent les scènes naturelles, les scènes photo de document et les scènes électroniques. La diversité des données comprend plusieurs types de données, plusieurs angles de prise de vue et plusieurs langues. En termes d'annotation, l'annotation quadrilatérale ou polygonale au niveau de la ligne (colonne) et la transcription du contenu au niveau de la ligne (colonne) sont adoptées. Les données peuvent être utilisées pour des tâches de reconnaissance OCR multilingues.
Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.
Spécifications
Taille des données
500 000 feuilles, avec une répartition de 20 000 à 25 000 feuilles dans chaque langue
Scènes photographiques de documents : livres, journaux, divers types de cartes, factures, etc. ; Scènes naturelles : affiches, avertissements, panneaux de signalisation, emballages alimentaires, panneaux d'affichage, panneaux d'arrêt, panneaux, etc. Scènes électroniques : captures d'écran de téléphones portables, captures d'écran d'ordinateurs, documents électroniques
Diversité d'acquisition
Plusieurs types de données, plusieurs angles de prise de vue et plusieurs langues
Appareil d'acquisition
Téléphone portable, ordinateur
Format des données
Le format de l'image est .jpg et les autres formats généraux, et le format du document annoté est .json
Contenu de l'annotation
Annotation au niveau du quadrilatère ou du polygone au niveau de la ligne (colonne), transcription du contenu au niveau de la ligne (colonne)
Taux de précision
La précision du cadre de détection au niveau de la ligne n'est pas inférieure à 97 %, et la boîte est correctement divisée et l'écart environnant ne dépasse pas 5 pixels. La précision de transcription au niveau de la ligne et au niveau des caractères n'est pas inférieure à 97 %.