fr

Please fill in your name

Mobile phone format error

Veuillez entrer le téléphone

Veuillez entrer le nom de votre entreprise

Veuillez entrer votre e-mail professionnel

Veuillez entrer l'exigence de données

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

L'exigence de données ne peut pas faire moins de 5 mots et ne peut pas être constituée uniquement de chiffres

Accueil > Toutes Catégories > OCR > 57 645 images OCR de textes verticaux dans des environnements réels

57 645 images OCR de textes verticaux dans des environnements réels

Données OCR de scènes à texte vertical

données d’images OCR

données OCR

ensemble de données OCR

annotation OCR

acquisition OCR

traitement des données OCR

données OCR réécrites

Ensemble de 57 645 images OCR de textes en disposition verticale, prises dans divers environnements tels que les rues, enseignes, panneaux publicitaires, affiches, décors artistiques ou couvertures de magazines. Les textes sont majoritairement en chinois, avec une minorité en anglais. L’annotation comprend des boîtes de type polygone ou parallélogramme au niveau des colonnes, ainsi que la transcription correspondante. Ce corpus est conçu pour le traitement OCR des textes verticaux complexes.

Données payantes

Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.

Spécifications

Spécifications

Volume des données

57 645 images, 528 553 cadres

Environnement de collecte

Scènes de rue, enseignes, affiches, décorations, lettrages artistiques, couvertures de magazines, etc.

Variété de captures

Multiples contextes et styles typographiques

Répartition des langues

Chinois, et un peu d’anglais

Répartition des orientations des cadres de délimitation

324 399 cadres verticaux, 204 154 non verticaux

Répartition des formes des cadres de délimitation

34 936 rectangles, 220 716 polygones, 272 901 parallélogrammes

Format des données

Format des images : .jpg ; format des annotations : .json

Contenu d'annotation

Annotation et transcription colonne par colonne pour cadres verticaux (polygones, parallélogrammes) ; annotation et transcription non verticale pour les autres

Précision

Écarts maximaux de 3 pixels aux sommets pour une détection correcte ; précision de détection ≥ 97 %, transcription ≥ 97 %

Échantillon

Exemple

Données recommandées

Jeux de données recommandés

500 000 images de données OCR annotées provenant de scènes naturelles, de scènes de documents photographiés et de scènes électroniques dans 21 pays

500 000 images de données OCR annotées provenant de scènes naturelles, de scènes de documents photographiés et de scènes électroniques dans 21 pays. Les données contiennent 21 langues, et le nombre de feuilles dans chaque langue est réparti entre 20 000 et 25 000. Les types de données incluent les scènes naturelles, les scènes photo de document et les scènes électroniques. La diversité des données comprend plusieurs types de données, plusieurs angles de prise de vue et plusieurs langues. En termes d'annotation, l'annotation quadrilatérale ou polygonale au niveau de la ligne (colonne) et la transcription du contenu au niveau de la ligne (colonne) sont adoptées. Les données peuvent être utilisées pour des tâches de reconnaissance OCR multilingues.

ensemble de données OCR multilingues données de reconnaissance de texte de scène ensemble de données OCR de document données OCR d'écran électronique ensemble de données OCR 21 langues données d'entraînement OCR AI ensemble de données de reconnaissance de texte

500 000 images OCR de scènes naturelles et de documents multi-pays

Ce jeu de données comprend 500 000 images issues de documents ou de scènes naturelles, couvrant 20 langues telles que le chinois traditionnel, le japonais, le coréen, l’indonésien, le malais, le thaï, le vietnamien ou encore le polonais. Grâce à sa diversité linguistique et contextuelle, ce corpus constitue une base robuste pour le développement de systèmes OCR multilingues performants.

Scènes naturelles documents OCR

30 000 images : Données OCR en langues minoritaires d'Asie du Sud-Est provenant de scènes naturelles

Données OCR pour 30 000 images en langues minoritaires d'Asie du Sud-Est : Khmer (Cambodge), Laotien, Birman. Diversité : scènes naturelles, angles de prise de vue. Utilisable pour l'OCR en langues d'Asie du Sud-Est.

OCR langues d’Asie du Sud-Est scènes naturelles

5 000 images OCR de scènes naturelles en turc

Ce jeu de données contient 5 000 images capturées en environnement naturel, avec du texte en langue turque et une variété d’angles de prise de vue. L’annotation comprend à la fois des encadrements quadrilatéraux et polygonaux au niveau des lignes de texte, associés à leur transcription. Ce corpus est destiné aux systèmes OCR multiformats orientés vers la langue turque dans des conditions réelles.

OCR turc scènes naturelles

8 604 images OCR de scènes naturelles en arabe

Ce corpus OCR en langue arabe se compose de 8 604 images capturées dans une grande variété de scènes naturelles, sous différents angles de prise de vue. L’annotation inclut des encadrements quadrilatéraux et polygonaux au niveau des lignes de texte, accompagnés de transcriptions précises. Cette base de données est spécifiquement conçue pour les tâches de reconnaissance optique de caractères (OCR) en arabe.

Données OCR en arabe conversion de contenu OCR données OCR ensemble de données OCR étiquetage OCR collecte de données OCR traitement des données OCR données de conversion OCR

104 320 images OCR de scènes naturelles – coréen et hindi

Ce corpus de 104 320 images OCR en contextes naturels coréen et hindi comprend des scènes telles que des emballages de produits, affiches, billets, panneaux d'information, menus et enseignes de bâtiments. La diversité des données repose sur la variété des environnements, angles de prise de vue et conditions lumineuses. Les langues représentées sont le coréen, l'hindi, ainsi qu'un faible pourcentage d’anglais. Les annotations sont réalisées à deux niveaux : au niveau ligne et colonne, avec des encadrements polygonaux (ou quadrilatères/rectangles), transcription textuelle et étiquetage linguistique. Ce jeu de données est parfaitement adapté aux tâches OCR sur scènes naturelles en coréen et hindi.

Coréen hindi données OCR scène naturelle données de translittération OCR

Données de scènes naturelles OCR en 12 langues de 105 941 images

Japanese, Korean, Indonesian, Malay, Vietnamese, Thai, French, German, Italian, Portuguese, Russian, Spanish, OCR, natural scenes, multiple photographic angles, line-level quadrilateral bounding box annotation and transcription for the texts

Japonais coréen indonésien malais vietnamien thaï français allemand italien portugais russe espagnol OCR scènes naturelles angles photographiques multiples annotation et transcription de la boîte englobante quadrilatérale au niveau de la ligne pour les textes

Données OCR en viêtnamien avec annotation et transcription de 4 995 images

Vietnamese, OCR, document images, Internet images, natural scenes, multiple angles, different light conditions, quadrilateral bounding box annotation, line-level transcription for the texts, column-level transcription for the texts

Vietnamien OCR images de documents images Internet scènes naturelles angles multiples conditions des lumières différentes annotation de cadres rectangulaires transcription au niveau des lignes pour les textes transcription au niveau des colonnes pour les textes

Veuillez nous indiquer vos besoins particuliers

Niveau de maturité du projet

Phase d’exploration initiale (spécifications non définies)

Objectifs définis, besoin d’un accompagnement professionnel

Phase de développement ou d’optimisation

Experts en données et annotation avec des spécifications claires

Nom complet *

Numéro de Téléphone*

Nom de l’entreprise *

E-mail de l’entreprise *

Exigences en matière de données *

En soumettant, j’accepte la politique de confidentialité

Abonnez-vous à notre newsletter

Soyez les premiers à recevoir les nouveautés produits, solutions de données et actualités de Nexdata

Jeux de données Prêts à l'Emploi: Toutes Catégories; LLM; Vision par ordinateur; Reconnaissance vocale; Synthèse vocale; OCR; Dictionnaire de prononciation; NLU

Service de Données: Données 3D Point Cloud; Données de Vue de Rue; Données OCR; Reconnaissance comportementale; Reconnaissance d’identité; Reconnaissance Vocale; Données Synthèse Vocale; Données multimodales

Industries: IA Incarnée; IA Générative; Véhicules Autonomes; AR/VR; IA Conversationnelle; Système Domotique; Commerce de Détail; Santé Intelligence

Entreprise: À Propos de Nous; Actualités; Partenaires; Qualité & Sécurité; Événements
Liens Utiles: OPENMPD; DataPlus; Datarade

Platforme: Platforme
Compétition: Compétition
Ressources: Jeux de données sponsorisés

Améliorez votre IA avec de meilleures données

+1(626)594-5598

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

Copyright © 2023 NEXDATA TECHNOLOGY INC

Navigation du site Conditions générales d’utilisation

Nous utilisons des cookies pour améliorer votre navigation, diffuser des publicités ou contenus personnalisés et analyser notre trafic. En cliquant "Accepter Tout", vous consentez à notre utilisation des cookies

41e082f4-19f2-4b08-8fd8-ca618ab89176

38e21baa-24e2-4206-9ffa-a6ad7b678c03