| Nom de l'ensemble de données | Type de données | Taille des données | Capturer du contenu |
| 1,000 Données de légende des images de scènes diverses | Image | 1000 images | Ensemble de données d’images avec légendes de scènes diverses. La distribution des scènes inclut des paysages naturels, des rues urbaines, des expositions, des environnements domestiques, etc. Chaque image comporte une description en anglais de 3 à 5 phrases. |
| 1,000 images Données de sous-titres de l’OCR dans les scènes naturelles | Image | 1000 images | Ensemble de données de légende OCR de 14 langues. Les sujets des images incluent les arrêts de bus, les affiches, les panneaux de signalisation, etc. Chaque image comprend une description anglaise de 3 à 5 phrases. |
| 1,000 Données de légende des images du visage humain | Image | 1000 images | Ensemble de données de légendes d’images de visages humains avec diverses postures de tête, expressions faciales, etc. Chaque image comporte une description en anglais de 3 à 5 phrases. |
| 1,000 images Données de légendes des gestes | Image | 1000 images | Ensemble de données de légendes d’images de gestes, avec différents angles et catégories de gestes. Chaque image comporte une description en anglais de 3 à 5 phrases. |
| 1,000 images Données sur les défauts de la peau du visage humain | Image | 1000 images | Ensemble de données de défauts cutanés du visage, incluant l’acné, les cicatrices d’acné, les taches sombres, les rides et les cernes. |
| 1,000 Vidéos Données de légende du mouvement humain | Vidéo | 1000 Vidéos | Ensemble de données de sous-titres vidéo en mouvement humain dans les scènes CCTV et non CCTV. Les mouvements humains incluent la marche, la boisson, le bâillement, faire du fitness, etc. Chaque vidéo comporte des légendes en anglais. |
| Données de reconnaissance de 7 expressions sur 1,000 personnes de différentes origines ethniques | Image | 1000 personnes | 7 Jeux de données d’expressions faciales, y compris normal, heureux, étonné, triste, en colère, dégoûté, effrayé. |
| Ensemble de données de 1 000 vidéos de micro-expressions (FACS) multi-ethniques | Vidéo | 1000 Vidéos | Ensemble de données de 57 micro-expressions faciales, incluant le soulèvement interne du sourcil (AU1), le soulèvement externe du sourcil (AU2), le soulèvement de la paupière supérieure (AU5), etc. |
| 50 Personnes- Données DMS | Vidéo | 50 personnes | Ensemble de données DMS comprenant des comportements dangereux, de fatigue et de mouvements visuels. La diversité du Ensemble de données inclut différentes tranches d’âge des sujets, périodes temporelles, types de véhicules et positions des caméras. |
| Données anti-spoofing faciale 2D de 50 personnes | Images & vidéos | 50 personnes | Ensemble de données anti-spoofing faciale 2D.Les données de visage réel comprennent des vidéos d’actions faciales, des images faciales et des vidéos de langage labial. Les données anti-spoofing comprennent des vidéos d’actions faciales factices, des vidéos de langage labial factices et des images faciales factices |
| Données de reconnaissance gestuelle de 1 000 images | Image | 1000 images | Ensemble de données de reconnaissance gestuelle comprenant 18 catégories de gestes. Les catégories incluent le chiffre 1, OK, LOVE, etc. Pour l’annotation, 21 points de repère de la main et plusieurs labels de gestes ont été utilisés. |
| Données OCR de 3 000 images de scènes naturelles | Image | 3000 images | Ensemble de données OCR de scènes naturelles comprenant des langues asiatiques (japonais, coréen, etc.) et européennes (français, allemand, etc.). Pour l’annotation, une annotation de cadre quadrilatérale au niveau des lignes et une transcription des textes ont été utilisées. |
| Données OCR de 500 images d’écriture manuscrite | Image | 500 images | Données OCR d’écriture manuscrite en anglais et en japonais. L’annotation comprend des cadres quadrilatéraux au niveau des lignes et la transcription des textes. |
| Ensemble de données 3D anti-spoofing faciale de 50 personnes | Image | 50 personnes | Ensemble de données 3D anti-spoofing faciale. Les données de visage réel comprennent des images faciales, tandis que les données anti-spoofing comprennent des images faciales factices. Chaque image correspond à une image de profondeur, un fichier de valeurs de profondeur et un fichier de paramètres de caméra. |
| Ensemble de données d’images faciales de 1 000 personnes multi-ethniques et multi-poses | Image | 1000 personnes | Ensemble de données de reconnaissance faciale multi-ethnique. Chaque individu dispose de 29 images faciales : 14 en intérieur (multi-poses, 14 en extérieur (multi-poses), et 1 photo d'identité.Les annotations incluent l’origine ethnique, le sexe, l’âge et la pose du visage. |
| Nom de l'ensemble de données | Appareil d’enregistrement | Taille des données | Spécifications |
| Corpus anglais pour synthèse vocale – 2 h, 4 pays | Microphone | 2 heures, 4 personnes | Personnes : 4 personnes venant des États-Unis, du Royaume-Uni, d’Australie et de Nouvelle-Zélande Format : 48 000 Hz, 24 bits, WAV non compressé, canal mono Environnement d’enregistrement : studio d’enregistrement professionnel |
| Données vocales françaises (lecture et conversation) – 20 heures, France, enregistrées sur téléphone mobile | Téléphone Portable | 20 heures | Format : 16 kHz, 16 bits, WAV non compressé, canal mono ; Conditions d’enregistrement : faible bruit de fond (intérieur), sans écho ; Catégorie de contenu : lecture, conversation ; Appareil d’enregistrement : smartphone Android, iPhone ; Pays : Portugal ; Langue : portugais ; Caractéristiques de l’annotation : transcription textuelle ; Taux de précision : le taux de précision des mots (Word Accuracy Rate, WAR) est d’au moins 97 %. |
| Données vocales allemandes (lecture et conversation) – 20 heures, enregistrées sur téléphone mobile | Téléphone Portable | 20 heures | Format : WAV non compressé, 16 kHz, 16 bits, canal mono Conditions d’enregistrement : intérieur, faible bruit, sans écho Type de contenu : lecture et conversation Appareils : smartphone Android et iPhone Pays : Allemagne Langue : allemand Fonctionnalités d’annotation : transcription Précision : le taux de précision des mots (WAR) est ≥ 97 % |
| Données vocales italiennes (lecture et conversation) – 20 heures, enregistrées sur téléphone mobile | Téléphone Portable | 20 heures | Format : 16 kHz, 16 bits, WAV non compressé, mono; Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho; Catégorie de contenu : Lecture, conversation; Appareil d’enregistrement : Smartphone Android, iPhone; Pays : Italie; Langue : Italien; Caractéristiques d’annotation : Texte de transcription; Taux de précision : Le taux de précision des mots (WAR) est d’au moins 97 %. |
| 20 heures - Espagne Espagnol Lecture et conversation Données vocales par téléphone mobile | Téléphone Portable | 20 heures | Format : 16 kHz, 16 bits, WAV non compressé, mono; Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho; Catégorie de contenu : Lecture, conversation; Appareil d’enregistrement : Smartphone Android, iPhone; Pays : Espagne; Langue : Espagnol; Caractéristiques d’annotation : Texte de transcription; Taux de précision : Le taux de précision des mots (WAR) est d’au moins 97 % |
| 20 heures - Lecture portugaise européenne et données de parole conversationnelle par téléphone mobile | Téléphone Portable | 20 heures | Format : 16 kHz, 16 bits, WAV non compressé, canal mono ; Conditions d’enregistrement : faible bruit de fond (intérieur), sans écho ; Catégorie de contenu : lecture, conversation ; Appareil d’enregistrement : smartphone Android, iPhone ; Pays : Portugal ; Langue : portugais ; Caractéristiques de l’annotation : transcription textuelle ; Taux de précision : le taux de précision des mots (Word Accuracy Rate, WAR) est d’au moins 97 %. |
| 20 heures - Lecture japonaise et données vocales conversationnelles par téléphone mobile | Téléphone Portable | 20 heures | Format : 16 kHz, 16 bits, WAV non compressé, mono; Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho; Catégorie de contenu : Lecture, conversation; Appareil d’enregistrement : Smartphone Android, iPhone; Pays : Japon; Langue : Japonais; Caractéristiques d’annotation : Texte de transcription; Taux de précision : Le taux de précision des mots (WAR) est d’au moins 97 %. |
| 20 heures - Lecture coréenne et données vocales conversationnelles par téléphone mobile | Téléphone Portable | 20 heures | Format : 16 kHz, 16 bits, WAV non compressé, canal mono ; Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho ; Catégorie de contenu : Lecture, conversation Appareil d’enregistrement : Smartphone Android, iPhone ; Pays : Corée Langue : Coréen ; Caractéristiques d’annotation : Texte transcrit ; Taux de précision : Taux de précision des mots (WAR) d’au moins 97 %. |
| 10 heures - Données de parole conversationnelle Pashto par téléphone | Téléphone | 10 heures | Format : 8 kHz 8 bits, PCM loi-A/loi-U, canal mono Catégorie de contenu : Dialogue basé sur des sujets donnés Conditions d’enregistrement : Faible bruit de fond (intérieur) Appareil d’enregistrement : Téléphone Pays : Afghanistan (AFG) Code de langue (région) : ps-AF Langue : Pachto Locuteur : 224 personnes au total, dont 92 % d’hommes et 8 % de femmes Caractéristiques d’annotation : Texte de transcription, horodatage, identifiant du locuteur, sexe Taux de précision : Taux de précision des mots (TPM) : 95 % Taux de précision : Taux de précision des mots (TPM) : d’au moins 95 % |
| Interspeech_ Données de compétition de reconnaissance vocale en anglais avec accent | Téléphone Portable | 200 hours,528people | Format audio : 16 kHz, 16 bits, WAV mono; Contenu audio : Principalement des conversations quotidiennes, incluant des scènes d’interaction homme-machine; Environnement d’enregistrement : Intérieur relativement calme, enregistrement par téléphone mobile; Durée : Environ 20 heures par accent, total de 8 accents; Langues représentées : Russe, coréen, anglais américain, portugais, japonais, anglais indien, anglais britannique; Locuteurs : De 40 à 110 locuteurs par langue |
Remarque : Veuillez demander les Jeux de données de manière raisonnable selon votre domaine de recherche. Le nombre maximal de demandes pour les Jeux de données en vision par ordinateur est de 6.
Remarque : Veuillez postuler aux Jeux de données de manière raisonnable selon votre domaine de recherche. Le nombre maximum des Jeux de données pour la vision par ordinateur est limité à 4.