en

Please fill in your name

Mobile phone format error

Veuillez entrer le téléphone

Veuillez entrer le nom de votre entreprise

Veuillez entrer votre e-mail professionnel

Veuillez entrer l'exigence de données

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

L'exigence de données ne peut pas faire moins de 5 mots et ne peut pas être constituée uniquement de chiffres

500 000 images de données OCR annotées provenant de scènes naturelles, de scènes de documents photographiés et de scènes électroniques dans 21 pays

ensemble de données OCR multilingues
données de reconnaissance de texte de scène
ensemble de données OCR de document
données OCR d'écran électronique
ensemble de données OCR 21 langues
données d'entraînement OCR AI
ensemble de données de reconnaissance de texte

500 000 images de données OCR annotées provenant de scènes naturelles, de scènes de documents photographiés et de scènes électroniques dans 21 pays. Les données contiennent 21 langues, et le nombre de feuilles dans chaque langue est réparti entre 20 000 et 25 000. Les types de données incluent les scènes naturelles, les scènes photo de document et les scènes électroniques. La diversité des données comprend plusieurs types de données, plusieurs angles de prise de vue et plusieurs langues. En termes d'annotation, l'annotation quadrilatérale ou polygonale au niveau de la ligne (colonne) et la transcription du contenu au niveau de la ligne (colonne) sont adoptées. Les données peuvent être utilisées pour des tâches de reconnaissance OCR multilingues.

Données payantes
Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.
SpécificationsSpécifications
Taille des données
500 000 feuilles, avec une répartition de 20 000 à 25 000 feuilles dans chaque langue
Répartition des langues
Allemand, français, portugais, italien, espagnol, indonésien, russe, japonais, coréen, vietnamien, polonais, tchèque, turc, philippin, néerlandais, hindi, malais, kazakh, slovaque, roumain, ouzbek
Environnement de collection
Scènes photographiques de documents : livres, journaux, divers types de cartes, factures, etc. ; Scènes naturelles : affiches, avertissements, panneaux de signalisation, emballages alimentaires, panneaux d'affichage, panneaux d'arrêt, panneaux, etc. Scènes électroniques : captures d'écran de téléphones portables, captures d'écran d'ordinateurs, documents électroniques
Diversité d'acquisition
Plusieurs types de données, plusieurs angles de prise de vue et plusieurs langues
Appareil d'acquisition
Téléphone portable, ordinateur
Format des données
Le format de l'image est .jpg et les autres formats généraux, et le format du document annoté est .json
Contenu de l'annotation
Annotation au niveau du quadrilatère ou du polygone au niveau de la ligne (colonne), transcription du contenu au niveau de la ligne (colonne)
Taux de précision
La précision du cadre de détection au niveau de la ligne n'est pas inférieure à 97 %, et la boîte est correctement divisée et l'écart environnant ne dépasse pas 5 pixels. La précision de transcription au niveau de la ligne et au niveau des caractères n'est pas inférieure à 97 %.
Échantillon Exemple
Données recommandéesJeux de données recommandés
Veuillez nous indiquer vos besoins particuliers

En soumettant, j’accepte la politique de confidentialité

f95543fc-082b-43ad-8a21-aa2453575e36

a6f2086a-4816-4e38-8c3a-1168b72ffcfd