Please fill in your name

Mobile phone format error

Veuillez entrer le téléphone

Veuillez entrer le nom de votre entreprise

Veuillez entrer votre e-mail professionnel

Veuillez entrer l'exigence de données

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

L'exigence de données ne peut pas faire moins de 5 mots et ne peut pas être constituée uniquement de chiffres

Jeux de données ouverts pour la recherche

Nexdata a lancé le Programme de recherche assistée par données d'IA destiné aux organisations non commerciales du monde entier, notamment aux universités et aux établissements d'enseignement supérieur. Ce programme fournit de précieux Jeux de données d'entraînement en vision par ordinateur, en reconnaissance vocale et dans d'autres domaines, afin de soutenir la recherche universitaire en IA.

Vision par ordinateur Vision par ordinateur
Reconnaissance vocale Reconnaissance vocale
Nom de l'ensemble de données Type de données Taille des données Capturer du contenu
1,000 Données de légende des images de scènes diverses Image 1000 images Ensemble de données d’images avec légendes de scènes diverses. La distribution des scènes inclut des paysages naturels, des rues urbaines, des expositions, des environnements domestiques, etc. Chaque image comporte une description en anglais de 3 à 5 phrases.
1,000 images Données de sous-titres de l’OCR dans les scènes naturelles Image 1000 images Ensemble de données de légende OCR de 14 langues. Les sujets des images incluent les arrêts de bus, les affiches, les panneaux de signalisation, etc. Chaque image comprend une description anglaise de 3 à 5 phrases.
1,000 Données de légende des images du visage humain Image 1000 images Ensemble de données de légendes d’images de visages humains avec diverses postures de tête, expressions faciales, etc. Chaque image comporte une description en anglais de 3 à 5 phrases.
1,000 images Données de légendes des gestes Image 1000 images Ensemble de données de légendes d’images de gestes, avec différents angles et catégories de gestes.          Chaque image comporte une description en anglais de 3 à 5 phrases.
1,000 images Données sur les défauts de la peau du visage humain Image 1000 images Ensemble de données de défauts cutanés du visage, incluant l’acné, les cicatrices d’acné, les taches sombres, les rides et les cernes.
1,000 Vidéos Données de légende du mouvement humain Vidéo 1000 Vidéos Ensemble de données de sous-titres vidéo en mouvement humain dans les scènes CCTV et non CCTV. Les mouvements humains incluent la marche, la boisson, le bâillement, faire du fitness, etc. Chaque vidéo comporte des légendes en anglais.
Données de reconnaissance de 7 expressions sur 1,000 personnes de différentes origines ethniques Image 1000 personnes 7 Jeux de données d’expressions faciales, y compris normal, heureux, étonné, triste, en colère, dégoûté, effrayé.
Ensemble de données de 1 000 vidéos de micro-expressions (FACS) multi-ethniques Vidéo 1000 Vidéos Ensemble de données de 57 micro-expressions faciales, incluant le soulèvement interne du sourcil (AU1), le soulèvement externe du sourcil (AU2), le soulèvement de la paupière supérieure (AU5), etc.
50 Personnes- Données DMS Vidéo 50 personnes Ensemble de données DMS comprenant des comportements dangereux, de fatigue et de mouvements visuels.         La diversité du Ensemble de données inclut différentes tranches d’âge des sujets, périodes temporelles, types de véhicules et positions des caméras.
Données anti-spoofing faciale 2D de 50 personnes Images & vidéos 50 personnes Ensemble de données anti-spoofing faciale 2D.Les données de visage réel comprennent des vidéos d’actions faciales, des images faciales et des vidéos de langage labial. Les données anti-spoofing comprennent des vidéos d’actions faciales factices, des vidéos de langage labial factices et des images faciales factices
Données de reconnaissance gestuelle de 1 000 images Image 1000 images Ensemble de données de reconnaissance gestuelle comprenant 18 catégories de gestes. Les catégories incluent le chiffre 1, OK, LOVE, etc. Pour l’annotation, 21 points de repère de la main et plusieurs labels de gestes ont été utilisés.
Données OCR de 3 000 images de scènes naturelles Image 3000 images Ensemble de données OCR de scènes naturelles comprenant des langues asiatiques (japonais, coréen, etc.) et européennes (français, allemand, etc.). Pour l’annotation, une annotation de cadre quadrilatérale au niveau des lignes et une transcription des textes ont été utilisées.
Données OCR de 500 images d’écriture manuscrite Image 500 images Données OCR d’écriture manuscrite en anglais et en japonais. L’annotation comprend des cadres quadrilatéraux au niveau des lignes et la transcription des textes.
Ensemble de données 3D anti-spoofing faciale de 50 personnes Image 50 personnes Ensemble de données 3D anti-spoofing faciale. Les données de visage réel comprennent des images faciales, tandis que les données anti-spoofing comprennent des images faciales factices. Chaque image correspond à une image de profondeur, un fichier de valeurs de profondeur et un fichier de paramètres de caméra.
Ensemble de données d’images faciales de 1 000 personnes multi-ethniques et multi-poses Image 1000 personnes Ensemble de données de reconnaissance faciale multi-ethnique. Chaque individu dispose de 29 images faciales : 14 en intérieur (multi-poses, 14 en extérieur (multi-poses), et 1 photo d'identité.Les annotations incluent l’origine ethnique, le sexe, l’âge et la pose du visage.
Nom de l'ensemble de données Appareil d’enregistrement Taille des données Spécifications
Corpus anglais pour synthèse vocale – 2 h, 4 pays Microphone 2 heures, 4 personnes Personnes : 4 personnes venant des États-Unis, du Royaume-Uni, d’Australie et de Nouvelle-Zélande
Format : 48 000 Hz, 24 bits, WAV non compressé, canal mono
Environnement d’enregistrement : studio d’enregistrement professionnel
Données vocales françaises (lecture et conversation) – 20 heures, France, enregistrées sur téléphone mobile Téléphone Portable 20 heures Format : 16 kHz, 16 bits, WAV non compressé, canal mono ;
Conditions d’enregistrement : faible bruit de fond (intérieur), sans écho ;
Catégorie de contenu : lecture, conversation ;
Appareil d’enregistrement : smartphone Android, iPhone ;
Pays : Portugal ;
Langue : portugais ;
Caractéristiques de l’annotation : transcription textuelle ;
Taux de précision : le taux de précision des mots (Word Accuracy Rate, WAR) est d’au moins 97 %.
Données vocales allemandes (lecture et conversation) – 20 heures, enregistrées sur téléphone mobile Téléphone Portable 20 heures Format : WAV non compressé, 16 kHz, 16 bits, canal mono
Conditions d’enregistrement : intérieur, faible bruit, sans écho
Type de contenu : lecture et conversation
Appareils : smartphone Android et iPhone
Pays : Allemagne
Langue : allemand
Fonctionnalités d’annotation : transcription
Précision : le taux de précision des mots (WAR) est ≥ 97 %
Données vocales italiennes (lecture et conversation) – 20 heures, enregistrées sur téléphone mobile Téléphone Portable 20 heures Format : 16 kHz, 16 bits, WAV non compressé, mono;
Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho;
Catégorie de contenu : Lecture, conversation;
Appareil d’enregistrement : Smartphone Android, iPhone;
Pays : Italie;
Langue : Italien;
Caractéristiques d’annotation : Texte de transcription;
Taux de précision : Le taux de précision des mots (WAR) est d’au moins 97 %.
20 heures - Espagne Espagnol Lecture et conversation Données vocales par téléphone mobile Téléphone Portable 20 heures Format : 16 kHz, 16 bits, WAV non compressé, mono;
Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho;
Catégorie de contenu : Lecture, conversation;
Appareil d’enregistrement : Smartphone Android, iPhone;
Pays : Espagne;
Langue : Espagnol;
Caractéristiques d’annotation : Texte de transcription;
Taux de précision : Le taux de précision des mots (WAR) est d’au moins 97 %
20 heures - Lecture portugaise européenne et données de parole conversationnelle par téléphone mobile Téléphone Portable 20 heures Format : 16 kHz, 16 bits, WAV non compressé, canal mono ;
Conditions d’enregistrement : faible bruit de fond (intérieur), sans écho ;
Catégorie de contenu : lecture, conversation ;
Appareil d’enregistrement : smartphone Android, iPhone ;
Pays : Portugal ;
Langue : portugais ;
Caractéristiques de l’annotation : transcription textuelle ;
Taux de précision : le taux de précision des mots (Word Accuracy Rate, WAR) est d’au moins 97 %.
20 heures - Lecture japonaise et données vocales conversationnelles par téléphone mobile Téléphone Portable 20 heures Format : 16 kHz, 16 bits, WAV non compressé, mono;
Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho;
Catégorie de contenu : Lecture, conversation;
Appareil d’enregistrement : Smartphone Android, iPhone;
Pays : Japon;
Langue : Japonais;
Caractéristiques d’annotation : Texte de transcription;
Taux de précision : Le taux de précision des mots (WAR) est d’au moins 97 %.
20 heures - Lecture coréenne et données vocales conversationnelles par téléphone mobile Téléphone Portable 20 heures Format : 16 kHz, 16 bits, WAV non compressé, canal mono ;
Conditions d’enregistrement : Faible bruit de fond (intérieur), sans écho ;
Catégorie de contenu : Lecture, conversation
Appareil d’enregistrement : Smartphone Android, iPhone ;
Pays : Corée
Langue : Coréen ;
Caractéristiques d’annotation : Texte transcrit ;
Taux de précision : Taux de précision des mots (WAR) d’au moins 97 %.
10 heures - Données de parole conversationnelle Pashto par téléphone Téléphone 10 heures Format : 8 kHz 8 bits, PCM loi-A/loi-U, canal mono
Catégorie de contenu : Dialogue basé sur des sujets donnés
Conditions d’enregistrement : Faible bruit de fond (intérieur)
Appareil d’enregistrement : Téléphone
Pays : Afghanistan (AFG)
Code de langue (région) : ps-AF
Langue : Pachto
Locuteur : 224 personnes au total, dont 92 % d’hommes et 8 % de femmes
Caractéristiques d’annotation : Texte de transcription, horodatage, identifiant du locuteur, sexe
Taux de précision : Taux de précision des mots (TPM) : 95 %
Taux de précision : Taux de précision des mots (TPM) : d’au moins 95 %
Interspeech_ Données de compétition de reconnaissance vocale en anglais avec accent Téléphone Portable 200 hours,528people Format audio : 16 kHz, 16 bits, WAV mono;
Contenu audio : Principalement des conversations quotidiennes, incluant des scènes d’interaction homme-machine;
Environnement d’enregistrement : Intérieur relativement calme, enregistrement par téléphone mobile;
Durée : Environ 20 heures par accent, total de 8 accents;
Langues représentées : Russe, coréen, anglais américain, portugais, japonais, anglais indien, anglais britannique;
Locuteurs : De 40 à 110 locuteurs par langue
Remarque : Veuillez demander les Jeux de données de manière raisonnable selon votre domaine de recherche. Le nombre maximal de demandes pour les Jeux de données en vision par ordinateur est de 6.
Remarque : Veuillez postuler aux Jeux de données de manière raisonnable selon votre domaine de recherche. Le nombre maximum des Jeux de données pour la vision par ordinateur est limité à 4.

Procédure de demande et instructions

Sélectionner un Ensemble de données sponsorisé

Sélectionner un Ensemble de données sponsorisé

Soumettre le formulaire

Soumettre le formulaire

Attendre le retour

Attendre le retour

Recevoir le Ensemble de données

Recevoir le Ensemble de données

Demande des Jeux de données sponsorisé

En soumettant ce formulaire, j’accepte l’Accord de Licence de Données

Institution partenaire

Nexdata se réserve le droit d’interprétation des activités liées aux données open source.

bdb333be-81fc-47e0-89f1-a013435eaf1d

ae07d508-a0fb-437c-857f-3adb8343c66b