20 011 images OCR de scènes naturelles

AIGC

légende en anglais

légende OCR

données OCR multilingues

données OCR

ensemble de données OCR

Ce jeu de données contient 20 011 images issues de scènes naturelles comportant du texte dans 14 langues appartenant aux familles linguistiques asiatiques et européennes. Les images ont été prises dans des contextes réels tels que des enseignes de magasin, panneaux d’information, affiches publicitaires ou signalétiques routières, sous divers angles de prise de vue. Les descriptions en anglais précisent la disposition du texte, son contenu sémantique ainsi que les caractéristiques visuelles comme la couleur.

Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.

Spécifications

Volume des données

20 011 images accompagnées de 20 011 descriptions

Répartition des langues

Langues asiatiques : coréen, indonésien, malais, vietnamien, thaï, chinois, japonais ; Langues européennes : français, allemand, italien, portugais, russe, espagnol, anglais

Environnement de collecte

Comprend diverses scènes telles que des enseignes de magasins, panneaux d'arrêt, affiches, panneaux de signalisation, inscriptions

Variété de captures

Couvre 14 langues, de nombreux environnements naturels et des angles de capture variés

Format des données

Format des images : .jpg ; format des textes : .txt

Appareils de collecte

Smartphones et appareils photo

Langue utilisée pour la description

Anglais

Longueur du texte

En général, entre 30 et 60 mots, répartis sur 3 à 5 phrases

Contenu principal de la description

Disposition du texte, contenu, couleurs et contexte visuel

Précision

Taux d’annotation correcte ≥ 97 %

Jeux de données recommandés

200 000 ensembles de données image-texte de bâtiments emblématiques de plusieurs pays

200 000 ensembles de données image-texte de bâtiments emblématiques de plusieurs pays. Chaque ensemble de données contient une image et un document de description en chinois et en anglais. Les points de repère nationaux comprennent 80 000 groupes et les autres points de repère nationaux 120 000 groupes. Il n'y a pas moins de 20 pays, dont les États-Unis, le Royaume-Uni, la France, la Russie, l'Allemagne et d'autres pays. Le nombre d'images correspondant à chaque point de repère est réparti de 1 à 10, y compris des informations sur les points de repère sous différents angles, à différentes distances et à différentes périodes. Les types de points de repère comprennent de nombreux types de bâtiments emblématiques, tels que des bâtiments commerciaux, des bâtiments anciens, des monuments, des bibliothèques, des attractions, etc. En termes de contenu d'étiquetage, le pays de repère, la ville de repère, l'emplacement spécifique du point de repère, la classification et la description du point de repère sont marqués. Les données peuvent être utilisées pour l'identification et l'analyse des bâtiments emblématiques.

ensemble de données d'images de point de repère ensemble de données de reconnaissance de bâtiment ensemble de légende d'image de point de repère mondial données de légende d'image bilingue ensemble de légende chinois-anglais ensemble de données de classification de point de repère ensemble de données image-texte ensemble de données de point de repère touristique ensemble de données d'image du patrimoine culturel sous-titrage d'image pour l'entraînement de l'IA

120 000 ensembles de données de compréhension et de raisonnement multimodaux et multidisciplinaires

120 000 ensembles de données de compréhension et de raisonnement multimodaux et multidisciplinaires, couvrant des problèmes graphiques et textuels mixtes de niveau professionnel (tels que des tableaux, des dessins d'ingénierie, des analyses d'œuvres d'art, etc.) dans 6 disciplines majeures et de multiples subdivisions telles que l'art, l'ingénierie et la médecine, et chaque question est vérifiée par des professionnels. Cet ensemble de données fournit une compréhension approfondie du texte et des informations visuelles, qui peuvent être utilisées pour améliorer le raisonnement logique et les capacités d'application des connaissances des grands modèles. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

ensemble de données multimodales ensemble de données VQA données d'assurance qualité multimodales ensemble de données de raisonnement pour l'IA ensemble de données d'assurance qualité image-texte données d'entraînement d'IA spécifiques à un domaine ensemble de données de raisonnement de graphique données d'entraînement multimodal LLM

100 000 groupes de données de description d'images d'icônes

100 000 groupes de données de description d'images d'icônes. Icônes : style 3D (2.5D, C4D, léger skeuomorphisme, glaçage) et illustrations vectorielles (linéaire, plat, etc., 13 sous-catégories), total 17 sous-catégories. Langue de description : Chinois, environ 30 caractères. Utilisable pour la reconnaissance graphique, l'interaction d'interface.

ICÔNES légendes d’images

20 846 ensembles de données de descriptions textuelles et d'images de recettes

Ce jeu de données comprend 20 846 ensembles de recettes, chacun composé de 4 à 18 images accompagnées de descriptions textuelles. Les cuisines représentées incluent la gastronomie chinoise, occidentale, coréenne et japonaise. Les descriptions sont rédigées en chinois et en anglais, avec une longueur minimale de 15 caractères pour le chinois et de 30 mots pour l’anglais. Ce corpus constitue une ressource précieuse pour la recommandation intelligente de recettes, l’assistance culinaire et la formation en ligne.

Livre de cuisine légendes d’images AIGC

Données d'annotation et de description d'images de comportements humains (1 400 images, 5 937 cadres)

1 400 données d'annotation et de description d'images de comportements humains recueillent une variété de scénarios et une variété d'activités humaines, et annotent les personnages de l'image, ce qui peut fournir une multitude de ressources pour les grands modèles multimodaux, et a été vérifié par de nombreuses entreprises d'IA, et ces données aident le modèle à bien fonctionner dans les applications du monde réel. Dans le processus d'acquisition, de stockage et d'utilisation des données, nous respectons toujours strictement les réglementations en matière de protection des données et de confidentialité afin de garantir le respect de la vie privée des utilisateurs et des droits et intérêts légitimes. Toutes les données sont conformes aux exigences réglementaires telles que GDPR, CCPA et PIPL.

Ensemble de données d'action humaine Ensemble de données d'image d'activité humaine images de reconnaissance d'action ensemble de données d'activité humaine annoté Ensemble de données de sous-titrage d'image humaine ensemble de données humain multimodal données de détection d'action humaine ensemble de données VLA

204, 522 ensembles de données de résolution de problèmes par prise de photo de grands modèles

204, 522 données OCR_questions de test, couvrant plusieurs disciplines, types de questions et dispositifs d'acquisition (téléphones portables, scanners), et le texte a été transcrit, et les formules et les tableaux ont été transcrits au format latex. Cet ensemble de données peut être utilisé pour des tâches telles que l'évaluation intelligente du papier et le tutorat des devoirs. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

Grand modèle multimodal éducation questions de test

102 735 groupes de données de description & Q/A pour images de diapositives PPT

102 735 groupes d'images de diapositives PPT et annotations de description/Q/A correspondantes. Types de PPT : diagrammes d'architecture, diagrammes numériques, organigrammes, illustrations (4 types). Utilisable pour l'intelligence des documents.

Diapositive VQA analyse documentaire

20 011 images OCR de scènes naturelles – description textuelle

AIGC

légende en anglais

légende OCR

données OCR multilingues

données OCR

ensemble de données OCR

Niveau de maturité du projet

20 011 images OCR de scènes naturelles – description textuelle

AIGC légende en anglais légende OCR données OCR multilingues données OCR ensemble de données OCR

Niveau de maturité du projet

20 011 images OCR de scènes naturelles – description textuelle

AIGC

légende en anglais

légende OCR

données OCR multilingues

données OCR

ensemble de données OCR