14 511 images OCR manuscrites en anglais

Écriture manuscrite anglaise

OCR

Corpus manuscrit OCR en langue anglaise contenant 14 511 images. Les supports papier incluent des feuilles A4, du papier ligné et du papier à lettres anglais. Les les images ont été saisies à l’aide de smartphones, selon un angle de vue perpendiculaire. Elles couvrent des contenus variés : essais, poèmes, récits, articles de presse et histoires. Chaque ligne de texte a été annotée avec une boîte quadrilatérale et une transcription précise ligne par ligne. Ce corpus est conçu pour l’entraînement et à l’évaluation de modèles OCR pour l’écriture manuscrite anglaise.

Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.

Spécifications

Volume des données

1 591 participants, 14 511 images

Répartition des intervenants

Répartition par sexe : 659 hommes, 932 femmes ; par âge : 30 < 18 ans, 1 479 entre 18-45 ans, 82 entre 46-60 ans

Répartition par nationalité

États-Unis, Philippines, Inde, France, Égypte, Pakistan, Zimbabwe, etc.

Environnement de collecte

Papier A4 standard, papier ligné, papier pour écriture anglaise, etc.

Appareils de collecte

Téléphone mobile

Angle de prise de vue

Vue frontale à hauteur des yeux

Format des données

Formats des images : .jpg et .jpeg ; format des fichiers d’annotation : .json

Contenu des données

Textes rédigés en anglais : dissertations, poèmes, essais, articles d’actualité, récits, etc.

Contenu d'annotation

Annotation quadrilatérale au niveau de la ligne, avec transcription ligne par ligne

Précision

Précision des données collectées ≥ 97 % ; précision de transcription ≥ 97 %

Jeux de données recommandés

9 574 images, 8 langues : Données OCR d'écriture manuscrite sur tableau blanc/tableau noir

Données OCR d'écriture manuscrite pour 9 574 images de tableaux noirs/tableaux blancs en 8 langues : Anglais, Espagnol, Portugais, Français, Allemand, Japonais, Italien, Néerlandais. Diversité : environnements, supports, langues, angles de prise de vue (hauteur des yeux, aérien, contre-plongée). Annotation : Boîte quadrilatère/polygone au niveau de la ligne, transcription. Utilisable pour l'OCR d'écriture manuscrite.

Écriture manuscrite OCR tableau noir tableau blanc tableau vert

1 000 participants – corpus OCR manuscrit – italien

Ce corpus OCR contient des écritures manuscrites collectées auprès de 1 000 Européens habitués à écrire en italien. Les documents ont été numérisés avec un angle de vue frontal. Les données comprennent des adresses, des noms d’entreprise et des noms propres. Ce corpus est destiné à des applications de reconnaissance manuscrite en langue italienne.

Italien écriture manuscrite OCR Européens scanner angle à hauteur des yeux

1 000 participants – corpus OCR manuscrit – espagnol

Ce corpus OCR comprend des échantillons manuscrits produits par 1 000 Européens habitués à écrire en espagnol. Les données ont été numérisées à l’aide de scanners en angle frontal. Les contenus incluent des adresses, des noms d’entreprise et des noms propres. Ce jeu de données est adapté aux tâches de reconnaissance manuscrite en espagnol.

Espagnol écriture manuscrite OCR Européens scanner angle à hauteur des yeux

Données OCR manuscrites en allemand – 1 000 personnes

Corpus manuscrit pour l’OCR en allemand, rédigé par 1 000 locuteurs européens familiers de l’écriture allemande. Les échantillons ont été numérisés par scanner en vue verticale standardisée. Les contenus couvrent des informations telles que les adresses, noms de sociétés et noms de personnes. Ce corpus est adapté à l’entraînement et à l’évaluation de systèmes de reconnaissance optique de caractères manuscrits en langue allemande.

Allemand écriture manuscrite OCR Européens scanner angle à hauteur des yeux

1 000 images OCR d’écriture manuscrite en français

Ce corpus OCR manuscrit en français regroupe des échantillons produits par 1 000 scripteurs européens, natifs ou parfaitement francophones. Les textes, numérisés par scanner en vue frontale, incluent adresses, noms propres et raisons sociales. Ce corpus constitue une ressource fiable pour l'entraînement et l’évaluation des systèmes de reconnaissance optique de l’écriture manuscrite en français.

Français écriture manuscrite OCR Européens scanner angle à hauteur des yeux

2 504 images OCR d’écriture manuscrite en chinois

Ce corpus comprend 2 504 échantillons d’écriture manuscrite en chinois, destinés à l’OCR. Les supports varient : papier A4, papier quadrillé ou ligné, tableaux blancs, post-it colorés, fiches de réponse, etc. Les contenus incluent poèmes, essais, annonces promotionnelles, messages de vœux, listes de souhaits, extraits, compositions et notes. Le corpus reflète une grande diversité de supports, de styles d’écriture, de contenus et d’angles de prise de vue (vue frontale et contre-plongée). Les annotations incluent des cadres quadrilatéraux ligne/colonne et les transcriptions associées. Cette base est idéale pour les projets de reconnaissance d’écriture manuscrite en chinois.

Chinois écriture manuscrite OCR papier A4 papier quadrillé papier ligné tableau blanc note colorée poésie prose avis d’activités commerciales salutations listes de souhaits extraits poésie prose avis d’activités commerciales salutations listes de souhaits extraits angle en contre-plongée angle à hauteur des yeux

5 156 images OCR manuscrites de formules mathématiques

Ce corpus comprend 5 156 images manuscrites de formules mathématiques. Les supports utilisés incluent du papier A4, du papier quadrillé, du papier ligné et des tableaux blancs. Il couvre une diversité de supports, de types de formules et d’angles de capture (notamment en vision frontale et en contre-plongée). Ce jeu de données est parfaitement adapté aux tâches d’OCR appliquées à l’écriture manuscrite de formules mathématiques.

Formules mathématiques écriture manuscrite OCR papier A4 papier quadrillé papier ligné tableau blanc papier A4 papier quadrillé papier ligné tableau blanc angle en contre-plongée angle à hauteur des yeux

5 711 images OCR d’écriture manuscrite en coréen

Ce corpus contient 5 711 images de texte manuscrit coréen. Les supports incluent des feuilles A4, du papier ligné et quadrillé. Les données ont été recueillies à l’aide de smartphones sous un angle frontal. Le contenu comprend des essais, des poèmes, des textes narratifs, des articles de presse et des histoires en langue coréenne. Chaque ligne est annotée à l’aide d’un cadre quadrilatéral et transcrite. Ce corpus est destiné aux tâches d’OCR sur l’écriture manuscrite en coréen.

Japonais écriture manuscrite OCR annotation au niveau de la ligne transcription ligne par ligne

14 511 images OCR manuscrites en anglais

Écriture manuscrite anglaise OCR

Niveau de maturité du projet

14 511 images OCR manuscrites en anglais

Écriture manuscrite anglaise

OCR