en

Please fill in your name

Mobile phone format error

Veuillez entrer le téléphone

Veuillez entrer le nom de votre entreprise

Veuillez entrer votre e-mail professionnel

Veuillez entrer l'exigence de données

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

L'exigence de données ne peut pas faire moins de 5 mots et ne peut pas être constituée uniquement de chiffres

Ensemble de données pour le concours de dialogue vocal multilingue Interspeech 2025 - MLC-SLM

ensemble de données audio d'atelier
ensemble de données mlc-slm
données de reconnaissance vocale ASR

Le contexte de l'ensemble de données pour le concours de dialogue vocal multilingue Interspeech 2025 - MLC-SLM est que Datatang a organisé le concours de discours de dialogue multilingue MLC-SLM en 2025, et l'ensemble de données provient des 15 ensembles de données de discours de dialogue de Datatang. Il est conçu pour briser le goulot d'étranglement de la reconnaissance vocale multilingue et de la technologie de compréhension de contexte long, et capturer véritablement des scénarios d'interaction complexes tels que le chevauchement des locuteurs et l'interruption impromptue, fournissant ainsi de riches ressources pour la recherche et les applications liées à la reconnaissance vocale, et aidant le modèle à bien fonctionner face à la diversité du monde réel. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

Données payantes
Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.
SpécificationsSpécifications
Format
16 kHz, 16 bits, wav non compressé, mono
Environnement d'enregistrement
Intérieur relativement calme, pas d'écho
Contenu d'enregistrement
Une liste de sujets est fournie ; l'orateur en sélectionne plusieurs qu'il maîtrise afin d'assurer une conversation fluide et naturelle, et développe un dialogue autour de chaque sujet lors de l'enregistrement
Caractéristiques de l'annotation
Annotation du contenu du texte, de l'heure de début et de fin des phrases valides et du logo de l'orateur
Appareil
Téléphones Android, Téléphones Apple
Langues
Anglais américain, Anglais britannique, Anglais philippin, Anglais australien, Anglais indien, Français, Allemand, Italien, Japonais, Coréen, Portugais, Russe, Espagnol, Thaï, Vietnamien.
Échantillon Exemple
  • Audio

    one direction is the first thing like in the mind

  • Audio

    Parce que j'ai plus l'ancien, j'en ai que celui-là dorénavant.

  • Audio

    D'accord très bien l'autre, je vais l'effacer alors.

  • Audio

    조금 이제 날씨도 더워지는데 덜 답답하구

  • Audio

    이천치십 년이랑 이천이십일 년 진짜 학교 못 간게

Données recommandéesJeux de données recommandés
600 heures de données vocales de conversation naturelle avec pistes séparées en anglais philippin collectées par téléphone portable

Données vocales de conversation naturelle avec pistes séparées en anglais philippin collectées par téléphone portable, enregistré sur la base d'une simulation de thèmes courants. Cet ensemble de données est marqué par du contenu textuel, des horodatages de phrases, l'identité du locuteur, le sexe et d'autres attributs, enregistré par des natifs philippins de différents milieux géographiques et culturels, il garantit une grande exactitude. Cette ressource riche constitue un outil précieux pour la recherche et les applications liées à la reconnaissance vocale. Validé par plusieurs entreprises en intelligence artificielle, il contribue à améliorer les performances des modèles face à la diversité des situations réelles. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

dialogue AI dataset données d'entraînement à la reconnaissance vocale ensemble de données audio multicanaux données vocales de smartphone ensemble de données de parole spontanée ensemble de données vocales multi-flux ensemble de données vocales en anglais des Philippines ensemble de données vocales en duplex intégral
600 heures de données vocales de conversation naturelle avec pistes séparées en anglais américain collectées par téléphone portable

Données vocales de conversation naturelle avec pistes séparées en anglais américain collectées par téléphone portable, enregistré sur la base d'une simulation de thèmes courants. Cet ensemble de données est marqué par du contenu textuel, des horodatages de phrases, l'identité du locuteur, le sexe et d'autres attributs, enregistrés par des Amérindiens de différents milieux géographiques et culturels, il garantit une grande exactitude. Cette ressource riche constitue un outil précieux pour la recherche et les applications liées à la reconnaissance vocale. Validé par plusieurs entreprises en intelligence artificielle, il contribue à améliorer les performances des modèles face à la diversité des situations réelles. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

Ensemble de données vocales en anglais américain Ensemble de données vocales multi-flux ensemble de données de dialogue en duplex intégral ensemble de données vocales spontanées données vocales de smartphone ensemble de données audio multicanaux données d'entraînement de reconnaissance vocale ensemble de données de dialogue AI
Veuillez nous indiquer vos besoins particuliers

En soumettant, j’accepte la politique de confidentialité

aab3cebc-1e77-44ac-b70a-156fcdb132e7

b80740c5-7868-4a5c-a2e8-1fe9d15168a7