en

Please fill in your name

Mobile phone format error

Veuillez entrer le téléphone

Veuillez entrer le nom de votre entreprise

Veuillez entrer votre e-mail professionnel

Veuillez entrer l'exigence de données

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

L'exigence de données ne peut pas faire moins de 5 mots et ne peut pas être constituée uniquement de chiffres

104 320 images OCR de scènes naturelles – coréen et hindi

Coréen
hindi
données OCR
scène naturelle
données de translittération OCR

Ce corpus de 104 320 images OCR en contextes naturels coréen et hindi comprend des scènes telles que des emballages de produits, affiches, billets, panneaux d'information, menus et enseignes de bâtiments. La diversité des données repose sur la variété des environnements, angles de prise de vue et conditions lumineuses. Les langues représentées sont le coréen, l'hindi, ainsi qu'un faible pourcentage d’anglais. Les annotations sont réalisées à deux niveaux : au niveau ligne et colonne, avec des encadrements polygonaux (ou quadrilatères/rectangles), transcription textuelle et étiquetage linguistique. Ce jeu de données est parfaitement adapté aux tâches OCR sur scènes naturelles en coréen et hindi.

Données payantes
Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.
SpécificationsSpécifications
Volume des données
76 861 images en coréen avec 555 913 encadrements ; 27 459 images en hindi avec 200 453 encadrements
Environnement de collecte
Incluant des emballages de produits, affiches, billets, panneaux informatifs, menus, enseignes de bâtiments, etc.
Variété de captures
Divers environnements extérieurs, multiples angles de prise de vue, et diverses conditions d’éclairage
Appareils de collecte
Téléphone mobile
Angle de prise de vue
Vue en contre-plongée, en plongée, et frontale
Répartition des langues
Coréen, hindi, et anglais (en faible proportion)
Format des données
Format image : .jpg ; format d’annotation : .json
Répartition des formes des cadres de délimitation
Coréen : 315 822 quadrilatères, 240 091 polygones ; Hindi : 780 quadrilatères, 199 671 polygones, 2 rectangles
Contenu d'annotation
Niveau ligne : Boîte polygone (ou quadrilatère, rectangle), transcription, attribut de texte (langue) ; Niveau colonne : Boîte polygone (ou quadrilatère, rectangle), transcription, attribut de texte (langue)
Précision
Écart des coins de la boîte de délimitation ≤ 5 pixels considéré comme correct, précision ≥95 % ; Précision de transcription ≥95 %
Échantillon Exemple
  • 104 320 images OCR de scènes naturelles – coréen et hindi
  • 104 320 images OCR de scènes naturelles – coréen et hindi
  • 104 320 images OCR de scènes naturelles – coréen et hindi
Données recommandéesJeux de données recommandés
Veuillez nous indiquer vos besoins particuliers

En soumettant, j’accepte la politique de confidentialité

3ac50911-e877-4ab4-9c83-ccc119b2f1d2

9a613354-a093-4d25-98aa-c2205342f2a4