500 heures de données vocales de conversation naturelle en dialecte de Wuhan (annotation bilingue) collectées par téléphone portable

Wuhan

Dialecte

Conversation

Données vocales de conversation en dialecte de Wuhan collectées par téléphone portable, librement parlée et enregistrée par l'enregistreur. Cet ensemble de données est marqué avec divers attributs tels que le contenu du texte, l'horodatage des phrases, l'identité du locuteur, le sexe, etc., enregistrés par des locuteurs natifs du dialecte, il garantit une grande exactitude. Cette ressource riche constitue un outil précieux pour la recherche et les applications liées à la reconnaissance vocale. Validé par plusieurs entreprises en intelligence artificielle, il contribue à améliorer les performances des modèles face à la diversité des situations réelles. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.

Exemple

Audio
要是如果说哎反正正咱觉得出去玩啊。[N] 要是如果说哎反正现在觉得出去玩啊。
Audio
开拓眼界确实是，让人蛮心情蛮蛮愉快呀。[N] 开拓眼界确实是，让人很心情很很愉快呀。
Audio
是的你要谈那个旅行的话，正咱的话就蛮提倡周边游。[N] 是的你要谈那个旅行的话，现在的话就很提倡周边游。
Audio
乡村游，是不是啊，一日游两日游是吧，我觉得这还是蛮好。[N] 乡村游，是不是啊，一日游两日游是吧，我觉得这还是很好。
Audio
大家都出去玩哈子，看哈子，看哈子那个呢，你像正咱马上也可以看油菜花了呢。[N] 大家都出去玩一下，看一下，看一下那个呢，你像现在马上也可以看油菜花了呢。

Jeux de données recommandés

Ensemble de données pour le concours de dialogue vocal multilingue Interspeech 2025 - MLC-SLM

Le contexte de l'ensemble de données pour le concours de dialogue vocal multilingue Interspeech 2025 - MLC-SLM est que Datatang a organisé le concours de discours de dialogue multilingue MLC-SLM en 2025, et l'ensemble de données provient des 15 ensembles de données de discours de dialogue de Datatang. Il est conçu pour briser le goulot d'étranglement de la reconnaissance vocale multilingue et de la technologie de compréhension de contexte long, et capturer véritablement des scénarios d'interaction complexes tels que le chevauchement des locuteurs et l'interruption impromptue, fournissant ainsi de riches ressources pour la recherche et les applications liées à la reconnaissance vocale, et aidant le modèle à bien fonctionner face à la diversité du monde réel. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

ensemble de données audio d'atelier ensemble de données mlc-slm données de reconnaissance vocale ASR

3000 heures de données vocales de conversation naturelle en mandarin pleinement duplex

Données vocales de conversation naturelle en mandarin pleinement duplex, enregistrées sur la base de conversations sur des sujets courants. Cet ensemble de données est marqué avec une variété d'attributs tels que le contenu du texte, l'horodatage des phrases, l'identité du locuteur, le sexe, etc., il garantit une grande exactitude. Cette ressource riche constitue un outil précieux pour la recherche et les applications liées à la reconnaissance vocale. Validé par plusieurs entreprises en intelligence artificielle, il contribue à améliorer les performances des modèles face à la diversité des situations réelles. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

Full-Duplex Dialogues Mandarin

581 heures de données vocales parlées en grec

Données vocales parlées en grec, couvrant des domaines généraux tels que les médias personnels, le dialogue et la diffusion en direct, reflétant des situations interactives du monde réel. Cet ensemble de données est marqué avec divers attributs tels que le contenu du texte, l'identité du locuteur et le sexe, et est enregistré par plusieurs Roumains de différents milieux géographiques et culturels, avec une grande précision et une grande facilité d'utilisation, fournissant de riches ressources pour la recherche et les applications liées à la reconnaissance vocale, aidant le modèle à bien fonctionner face à la diversité du monde réel. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

ensemble de données de parole grecque données d'entraînement ASR grecques corpus de conversation grecque discours de monologue grec ensemble de données de reconnaissance vocale grecque données grecques de synthèse vocale ensemble de données vocales grecques ensemble de données de transcription grecque

600 heures de données vocales parlées en norvégien

Données vocales parlées en norvégien, couvrant des domaines généraux tels que les médias personnels, le dialogue et la diffusion en direct, reflétant des situations interactives du monde réel. Cet ensemble de données est marqué avec divers attributs tels que le contenu du texte, l'identité du locuteur et le sexe, et est enregistré par plusieurs Roumains de différents milieux géographiques et culturels, avec une grande précision et une grande facilité d'utilisation, fournissant de riches ressources pour la recherche et les applications liées à la reconnaissance vocale, aidant le modèle à bien fonctionner face à la diversité du monde réel. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

ensemble de données vocales norvégiennes données d'entraînement ASR norvégiennes corpus de conversations norvégiennes discours monologue norvégien ensemble de données norvégiennes de reconnaissance vocale données norvégiennes de reconnaissance vocale données norvégiennes de reconnaissance vocale ensemble de données vocales norvégiennes données vocales multilingues ensemble de données de transcription norvégienne

Données vocales de dialogue scénarisé en gujarati

Données vocales de dialogue scénarisées en gujarati, simulées basé sur un script donné et enregistré, couvrant plusieurs champs et un contenu riche. Cet ensemble de données est étiqueté avec divers attributs tels que le contenu textuel et il garantit une grande exactitude. Cette ressource riche constitue un outil précieux pour la recherche et les applications liées à la reconnaissance vocale. Validé par plusieurs entreprises en intelligence artificielle, il contribue à améliorer les performances des modèles face à la diversité des situations réelles. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

Ensemble de données audio gujarati Ensemble de données ASR gujarati Ensemble de données vocales gujarati Ensemble de données tts gujarati

600 heures de données vocales de conversation naturelle avec pistes séparées en anglais philippin collectées par téléphone portable

Données vocales de conversation naturelle avec pistes séparées en anglais philippin collectées par téléphone portable, enregistré sur la base d'une simulation de thèmes courants. Cet ensemble de données est marqué par du contenu textuel, des horodatages de phrases, l'identité du locuteur, le sexe et d'autres attributs, enregistré par des natifs philippins de différents milieux géographiques et culturels, il garantit une grande exactitude. Cette ressource riche constitue un outil précieux pour la recherche et les applications liées à la reconnaissance vocale. Validé par plusieurs entreprises en intelligence artificielle, il contribue à améliorer les performances des modèles face à la diversité des situations réelles. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

dialogue AI dataset données d'entraînement à la reconnaissance vocale ensemble de données audio multicanaux données vocales de smartphone ensemble de données de parole spontanée ensemble de données vocales multi-flux ensemble de données vocales en anglais des Philippines ensemble de données vocales en duplex intégral

600 heures de données vocales de conversation naturelle avec pistes séparées en anglais américain collectées par téléphone portable

Données vocales de conversation naturelle avec pistes séparées en anglais américain collectées par téléphone portable, enregistré sur la base d'une simulation de thèmes courants. Cet ensemble de données est marqué par du contenu textuel, des horodatages de phrases, l'identité du locuteur, le sexe et d'autres attributs, enregistrés par des Amérindiens de différents milieux géographiques et culturels, il garantit une grande exactitude. Cette ressource riche constitue un outil précieux pour la recherche et les applications liées à la reconnaissance vocale. Validé par plusieurs entreprises en intelligence artificielle, il contribue à améliorer les performances des modèles face à la diversité des situations réelles. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

Ensemble de données vocales en anglais américain Ensemble de données vocales multi-flux ensemble de données de dialogue en duplex intégral ensemble de données vocales spontanées données vocales de smartphone ensemble de données audio multicanaux données d'entraînement de reconnaissance vocale ensemble de données de dialogue AI

500 heures de données vocales de conversation naturelle en dialecte de Jinan (annotation bilingue) collectées par téléphone portable

Données vocales de conversation en dialecte de Jinan collectées par téléphone portable, librement parlée et enregistrée par l'enregistreur. Cet ensemble de données est marqué avec divers attributs tels que le contenu du texte, l'horodatage des phrases, l'identité du locuteur, le sexe, etc., enregistrés par des locuteurs natifs du dialecte, il garantit une grande exactitude. Cette ressource riche constitue un outil précieux pour la recherche et les applications liées à la reconnaissance vocale. Validé par plusieurs entreprises en intelligence artificielle, il contribue à améliorer les performances des modèles face à la diversité des situations réelles. Nous respectons strictement les réglementations sur la protection des données et de la vie privée, en veillant à préserver la confidentialité et les droits légitimes des utilisateurs tout au long des processus d'acquisition, de stockage et d'utilisation. Toutes les données sont conformes au RGPD, à la CCPA et à la PIPL.

Dialecte Conversation

500 heures de données vocales de conversation naturelle en dialecte de Wuhan (annotation bilingue) collectées par téléphone portable

Wuhan Dialecte Conversation

Niveau de maturité du projet

Wuhan

Dialecte

Conversation