Jeux de données ouverts pour la recherche académique

Vision par ordinateur

Reconnaissance vocale

Nom de l'ensemble de données	Type de données	Taille des données	Capturer du contenu
1,000 Données de légende des images de scènes diverses	Image	1000 images	Ensemble de données d’images avec légendes de scènes diverses. La distribution des scènes inclut des paysages naturels, des rues urbaines, des expositions, des environnements domestiques, etc. Chaque image comporte une description en anglais de 3 à 5 phrases.
1,000 images Données de sous-titres de l’OCR dans les scènes naturelles	Image	1000 images	Ensemble de données de légende OCR de 14 langues. Les sujets des images incluent les arrêts de bus, les affiches, les panneaux de signalisation, etc. Chaque image comprend une description anglaise de 3 à 5 phrases.
1,000 Données de légende des images du visage humain	Image	1000 images	Ensemble de données de légendes d’images de visages humains avec diverses postures de tête, expressions faciales, etc. Chaque image comporte une description en anglais de 3 à 5 phrases.
1,000 images Données de légendes des gestes	Image	1000 images	Ensemble de données de légendes d’images de gestes, avec différents angles et catégories de gestes. Chaque image comporte une description en anglais de 3 à 5 phrases.
1,000 images Données sur les défauts de la peau du visage humain	Image	1000 images	Ensemble de données de défauts cutanés du visage, incluant l’acné, les cicatrices d’acné, les taches sombres, les rides et les cernes.
1,000 Vidéos Données de légende du mouvement humain	Vidéo	1000 Vidéos	Ensemble de données de sous-titres vidéo en mouvement humain dans les scènes CCTV et non CCTV. Les mouvements humains incluent la marche, la boisson, le bâillement, faire du fitness, etc. Chaque vidéo comporte des légendes en anglais.
Données de reconnaissance de 7 expressions sur 1,000 personnes de différentes origines ethniques	Image	1000 personnes	7 Jeux de données d’expressions faciales, y compris normal, heureux, étonné, triste, en colère, dégoûté, effrayé.
Ensemble de données de 1 000 vidéos de micro-expressions (FACS) multi-ethniques	Vidéo	1000 Vidéos	Ensemble de données de 57 micro-expressions faciales, incluant le soulèvement interne du sourcil (AU1), le soulèvement externe du sourcil (AU2), le soulèvement de la paupière supérieure (AU5), etc.
50 Personnes- Données DMS	Vidéo	50 personnes	Ensemble de données DMS comprenant des comportements dangereux, de fatigue et de mouvements visuels. La diversité du Ensemble de données inclut différentes tranches d’âge des sujets, périodes temporelles, types de véhicules et positions des caméras.
Données anti-spoofing faciale 2D de 50 personnes	Images & vidéos	50 personnes	Ensemble de données anti-spoofing faciale 2D.Les données de visage réel comprennent des vidéos d’actions faciales, des images faciales et des vidéos de langage labial. Les données anti-spoofing comprennent des vidéos d’actions faciales factices, des vidéos de langage labial factices et des images faciales factices
Données de reconnaissance gestuelle de 1 000 images	Image	1000 images	Ensemble de données de reconnaissance gestuelle comprenant 18 catégories de gestes. Les catégories incluent le chiffre 1, OK, LOVE, etc. Pour l’annotation, 21 points de repère de la main et plusieurs labels de gestes ont été utilisés.
Données OCR de 3 000 images de scènes naturelles	Image	3000 images	Ensemble de données OCR de scènes naturelles comprenant des langues asiatiques (japonais, coréen, etc.) et européennes (français, allemand, etc.). Pour l’annotation, une annotation de cadre quadrilatérale au niveau des lignes et une transcription des textes ont été utilisées.
Données OCR de 500 images d’écriture manuscrite	Image	500 images	Données OCR d’écriture manuscrite en anglais et en japonais. L’annotation comprend des cadres quadrilatéraux au niveau des lignes et la transcription des textes.
Ensemble de données 3D anti-spoofing faciale de 50 personnes	Image	50 personnes	Ensemble de données 3D anti-spoofing faciale. Les données de visage réel comprennent des images faciales, tandis que les données anti-spoofing comprennent des images faciales factices. Chaque image correspond à une image de profondeur, un fichier de valeurs de profondeur et un fichier de paramètres de caméra.
Ensemble de données d’images faciales de 1 000 personnes multi-ethniques et multi-poses	Image	1000 personnes	Ensemble de données de reconnaissance faciale multi-ethnique. Chaque individu dispose de 29 images faciales : 14 en intérieur (multi-poses, 14 en extérieur (multi-poses), et 1 photo d'identité.Les annotations incluent l’origine ethnique, le sexe, l’âge et la pose du visage.

Nom de l'ensemble de données	Appareil d’enregistrement	Taille des données	Spécifications
Corpus anglais pour synthèse vocale – 2 h, 4 pays	Microphone	2 heures, 4 personnes	Personnes : 4 personnes venant des États-Unis, du Royaume-Uni, d’Australie et de Nouvelle-Zélande Format : 48 000 Hz, 24 bits, WAV non compressé, canal mono Environnement d’enregistrement : studio d’enregistrement professionnel
Données vocales françaises (lecture et conversation) – 20 heures, France, enregistrées sur téléphone mobile	Téléphone Portable	20 heures	Format : 16 kHz, 16 bits, WAV non compressé, canal mono ; Conditions d’enregistrement : faible bruit de fond (intérieur), sans écho ; Catégorie de contenu : lecture, conversation ; Appareil d’enregistrement : smartphone Android, iPhone ; Pays : Portugal ; Langue : portugais ; Caractéristiques de l’annotation : transcription textuelle ; Taux de précision : le taux de précision des mots (Word Accuracy Rate, WAR) est d’au moins 97 %.
Données vocales allemandes (lecture et conversation) – 20 heures, enregistrées sur téléphone mobile	Téléphone Portable	20 heures	Format : WAV non compressé, 16 kHz, 16 bits, canal mono Conditions d’enregistrement : intérieur, faible bruit, sans écho Type de contenu : lecture et conversation Appareils : smartphone Android et iPhone Pays : Allemagne Langue : allemand Fonctionnalités d’annotation : transcription Précision : le taux de précision des mots (WAR) est ≥ 97 %
Données vocales italiennes (lecture et conversation) – 20 heures, enregistrées sur téléphone mobile	Téléphone Portable	20 heures	Format : 16 kHz, 16 bits, WAV non compressé, mono; Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho; Catégorie de contenu : Lecture, conversation; Appareil d’enregistrement : Smartphone Android, iPhone; Pays : Italie; Langue : Italien; Caractéristiques d’annotation : Texte de transcription; Taux de précision : Le taux de précision des mots (WAR) est d’au moins 97 %.
20 heures - Espagne Espagnol Lecture et conversation Données vocales par téléphone mobile	Téléphone Portable	20 heures	Format : 16 kHz, 16 bits, WAV non compressé, mono; Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho; Catégorie de contenu : Lecture, conversation; Appareil d’enregistrement : Smartphone Android, iPhone; Pays : Espagne; Langue : Espagnol; Caractéristiques d’annotation : Texte de transcription; Taux de précision : Le taux de précision des mots (WAR) est d’au moins 97 %
20 heures - Lecture portugaise européenne et données de parole conversationnelle par téléphone mobile	Téléphone Portable	20 heures	Format : 16 kHz, 16 bits, WAV non compressé, canal mono ; Conditions d’enregistrement : faible bruit de fond (intérieur), sans écho ; Catégorie de contenu : lecture, conversation ; Appareil d’enregistrement : smartphone Android, iPhone ; Pays : Portugal ; Langue : portugais ; Caractéristiques de l’annotation : transcription textuelle ; Taux de précision : le taux de précision des mots (Word Accuracy Rate, WAR) est d’au moins 97 %.
20 heures - Lecture japonaise et données vocales conversationnelles par téléphone mobile	Téléphone Portable	20 heures	Format : 16 kHz, 16 bits, WAV non compressé, mono; Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho; Catégorie de contenu : Lecture, conversation; Appareil d’enregistrement : Smartphone Android, iPhone; Pays : Japon; Langue : Japonais; Caractéristiques d’annotation : Texte de transcription; Taux de précision : Le taux de précision des mots (WAR) est d’au moins 97 %.
20 heures - Lecture coréenne et données vocales conversationnelles par téléphone mobile	Téléphone Portable	20 heures	Format : 16 kHz, 16 bits, WAV non compressé, canal mono ; Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho ; Catégorie de contenu : Lecture, conversation Appareil d’enregistrement : Smartphone Android, iPhone ; Pays : Corée Langue : Coréen ; Caractéristiques d’annotation : Texte transcrit ; Taux de précision : Taux de précision des mots (WAR) d’au moins 97 %.
10 heures - Données de parole conversationnelle Pashto par téléphone	Téléphone	10 heures	Format : 8 kHz 8 bits, PCM loi-A/loi-U, canal mono Catégorie de contenu : Dialogue basé sur des sujets donnés Conditions d’enregistrement : Faible bruit de fond (intérieur) Appareil d’enregistrement : Téléphone Pays : Afghanistan (AFG) Code de langue (région) : ps-AF Langue : Pachto Locuteur : 224 personnes au total, dont 92 % d’hommes et 8 % de femmes Caractéristiques d’annotation : Texte de transcription, horodatage, identifiant du locuteur, sexe Taux de précision : Taux de précision des mots (TPM) : 95 % Taux de précision : Taux de précision des mots (TPM) : d’au moins 95 %
Interspeech_ Données de compétition de reconnaissance vocale en anglais avec accent	Téléphone Portable	200 hours,528people	Format audio : 16 kHz, 16 bits, WAV mono; Contenu audio : Principalement des conversations quotidiennes, incluant des scènes d’interaction homme-machine; Environnement d’enregistrement : Intérieur relativement calme, enregistrement par téléphone mobile; Durée : Environ 20 heures par accent, total de 8 accents; Langues représentées : Russe, coréen, anglais américain, portugais, japonais, anglais indien, anglais britannique; Locuteurs : De 40 à 110 locuteurs par langue

Remarque : Veuillez demander les Jeux de données de manière raisonnable selon votre domaine de recherche. Le nombre maximal de demandes pour les Jeux de données en vision par ordinateur est de 6.

Remarque : Veuillez postuler aux Jeux de données de manière raisonnable selon votre domaine de recherche. Le nombre maximum des Jeux de données pour la vision par ordinateur est limité à 4.

Jeux de données ouverts pour la recherche

Procédure de demande et instructions

Demande des Jeux de données sponsorisé

Institution partenaire