500 000 images OCR de scènes naturelles et de documents multi-pays

Scènes naturelles

documents

OCR

Ce jeu de données comprend 500 000 images issues de documents ou de scènes naturelles, couvrant 20 langues telles que le chinois traditionnel, le japonais, le coréen, l’indonésien, le malais, le thaï, le vietnamien ou encore le polonais. Grâce à sa diversité linguistique et contextuelle, ce corpus constitue une base robuste pour le développement de systèmes OCR multilingues performants.

Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.

Spécifications

Volume des données

500 000 images, avec 12 500 scènes naturelles et 12 500 documents par langue

Répartition des langues

Chinois traditionnel, japonais, coréen, indonésien, malais, thaï, vietnamien, français, allemand, italien, portugais, russe, espagnol, arabe, turc, polonais, néerlandais, grec, tchèque, philippin (tagalog)

Environnement de collecte

Scènes naturelles : slogans, tickets, affiches, panneaux d’avertissement, signalisation, emballages alimentaires, affichages publicitaires, arrêts et enseignes.Documents : fichiers électroniques, comptes rendus de réunions, rapports, modes d’emploi, manuels d’utilisation, livres, journaux et manuels scolaires

Variété de captures

Divers environnements naturels et angles de prise de vue

Appareils de collecte

Collecte via smartphones et scanners

Angle de prise de vue

Vue en contre-plongée, en plongée, et frontale

Format des données

Format image : .jpg et autres formats standard

Précision

Taux de précision de la collecte ≥ 95 %

Jeux de données recommandés

500 000 images de données OCR annotées provenant de scènes naturelles, de scènes de documents photographiés et de scènes électroniques dans 21 pays

500 000 images de données OCR annotées provenant de scènes naturelles, de scènes de documents photographiés et de scènes électroniques dans 21 pays. Les données contiennent 21 langues, et le nombre de feuilles dans chaque langue est réparti entre 20 000 et 25 000. Les types de données incluent les scènes naturelles, les scènes photo de document et les scènes électroniques. La diversité des données comprend plusieurs types de données, plusieurs angles de prise de vue et plusieurs langues. En termes d'annotation, l'annotation quadrilatérale ou polygonale au niveau de la ligne (colonne) et la transcription du contenu au niveau de la ligne (colonne) sont adoptées. Les données peuvent être utilisées pour des tâches de reconnaissance OCR multilingues.

ensemble de données OCR multilingues données de reconnaissance de texte de scène ensemble de données OCR de document données OCR d'écran électronique ensemble de données OCR 21 langues données d'entraînement OCR AI ensemble de données de reconnaissance de texte

30 000 images : Données OCR en langues minoritaires d'Asie du Sud-Est provenant de scènes naturelles

Données OCR pour 30 000 images en langues minoritaires d'Asie du Sud-Est : Khmer (Cambodge), Laotien, Birman. Diversité : scènes naturelles, angles de prise de vue. Utilisable pour l'OCR en langues d'Asie du Sud-Est.

OCR langues d’Asie du Sud-Est scènes naturelles

5 000 images OCR de scènes naturelles en turc

Ce jeu de données contient 5 000 images capturées en environnement naturel, avec du texte en langue turque et une variété d’angles de prise de vue. L’annotation comprend à la fois des encadrements quadrilatéraux et polygonaux au niveau des lignes de texte, associés à leur transcription. Ce corpus est destiné aux systèmes OCR multiformats orientés vers la langue turque dans des conditions réelles.

OCR turc scènes naturelles

8 604 images OCR de scènes naturelles en arabe

Ce corpus OCR en langue arabe se compose de 8 604 images capturées dans une grande variété de scènes naturelles, sous différents angles de prise de vue. L’annotation inclut des encadrements quadrilatéraux et polygonaux au niveau des lignes de texte, accompagnés de transcriptions précises. Cette base de données est spécifiquement conçue pour les tâches de reconnaissance optique de caractères (OCR) en arabe.

Données OCR en arabe conversion de contenu OCR données OCR ensemble de données OCR étiquetage OCR collecte de données OCR traitement des données OCR données de conversion OCR

104 320 images OCR de scènes naturelles – coréen et hindi

Ce corpus de 104 320 images OCR en contextes naturels coréen et hindi comprend des scènes telles que des emballages de produits, affiches, billets, panneaux d'information, menus et enseignes de bâtiments. La diversité des données repose sur la variété des environnements, angles de prise de vue et conditions lumineuses. Les langues représentées sont le coréen, l'hindi, ainsi qu'un faible pourcentage d’anglais. Les annotations sont réalisées à deux niveaux : au niveau ligne et colonne, avec des encadrements polygonaux (ou quadrilatères/rectangles), transcription textuelle et étiquetage linguistique. Ce jeu de données est parfaitement adapté aux tâches OCR sur scènes naturelles en coréen et hindi.

Coréen hindi données OCR scène naturelle données de translittération OCR

57 645 images OCR de textes verticaux dans des environnements réels

Ensemble de 57 645 images OCR de textes en disposition verticale, prises dans divers environnements tels que les rues, enseignes, panneaux publicitaires, affiches, décors artistiques ou couvertures de magazines. Les textes sont majoritairement en chinois, avec une minorité en anglais. L’annotation comprend des boîtes de type polygone ou parallélogramme au niveau des colonnes, ainsi que la transcription correspondante. Ce corpus est conçu pour le traitement OCR des textes verticaux complexes.

Données OCR de scènes à texte vertical données d’images OCR données OCR ensemble de données OCR annotation OCR acquisition OCR traitement des données OCR données OCR réécrites

Données de scènes naturelles OCR en 12 langues de 105 941 images

Japanese, Korean, Indonesian, Malay, Vietnamese, Thai, French, German, Italian, Portuguese, Russian, Spanish, OCR, natural scenes, multiple photographic angles, line-level quadrilateral bounding box annotation and transcription for the texts

Japonais coréen indonésien malais vietnamien thaï français allemand italien portugais russe espagnol OCR scènes naturelles angles photographiques multiples annotation et transcription de la boîte englobante quadrilatérale au niveau de la ligne pour les textes

Données OCR en viêtnamien avec annotation et transcription de 4 995 images

Vietnamese, OCR, document images, Internet images, natural scenes, multiple angles, different light conditions, quadrilateral bounding box annotation, line-level transcription for the texts, column-level transcription for the texts

Vietnamien OCR images de documents images Internet scènes naturelles angles multiples conditions des lumières différentes annotation de cadres rectangulaires transcription au niveau des lignes pour les textes transcription au niveau des colonnes pour les textes

500 000 images OCR de scènes naturelles et de documents multi-pays

Scènes naturelles documents OCR

Niveau de maturité du projet

500 000 images OCR de scènes naturelles et de documents multi-pays

Scènes naturelles

documents

OCR