Date et Lieu : 22 août, Dock 14 – Centre de Congrès Rotterdam Ahoy
| Créneau horaire | Activité |
|---|---|
| 8:30-9:00 | Remise des badges |
| 9:00-10:00 | Conférence principale 1 : Shinji Watanabe Passage à l'échelle de la reconnaissance vocale multilingue : d'une poignée à des milliers de langues |
| 10:00-10:30 | Pause café |
| 10:30-11:00 | Résumé du Défi + Cérémonie de Remise des Prix |
| 11:00-12:00 | Session orale : 1. La soumission de Seewo au MLC-SLM : Leçons tirées des modèles de raisonnement de la parole, Intervenant : Bo Li 2. Système de reconnaissance vocale multilingue Transsion pour le Défi MLC-SLM 2025, Intervenant : Xiaoxiao Li 3. Triple X : Un système de reconnaissance vocale multilingue basé sur les LLM pour le Défi INTERSPEECH2025 MLC-SLM, Intervenante : Miaomiao Gao 4. Le système TEA-ASLP pour la reconnaissance de parole conversationnelle multilingue et la diarisation speaker dans le Défi MLC-SLM 2025, Intervenant : Hongfei Xue |
| 12:00-13:00 | Pause déjeuner |
| 13:00-14:00 | Conférence principale 2 : Hung-yi Lee Progrès dans les modèles de langage parlés |
| 14:00-14:30 | Session orale : 1. ILT : Apprentissage LoRA itératif par Focus–Feedback–Fixation pour la reconnaissance vocale multilingue, Intervenant : Qingliang Meng 2. Système BUT pour le Défi MLC-SLM, Intervenant : Alexander Polok |
| 14:30-15:00 | Pause café |
| 15:00-15:30 | Conférence invitée 1 : Ming Li Diarisation neuronale séquence à séquence dans des scénarios en ligne et multimodaux |
| 15:30-16:00 | Conférence invitée 2 : Shuai Wang Un plongement ne convient pas à tous : Repenser la modélisation du locuteur pour diverses applications de la parole |
| 16:00-16:30 | Conférence invitée 3 : Pan Pan Au-delà de la rareté des données : Concevoir des pipelines de données priorisant la qualité à différentes étapes de l'entraînement |
| 16:30-17:30 | Posters |
Vous avez manqué les sessions en direct ? Vous pouvez maintenant revoir les conférences inspirantes de l'atelier du défi MLC-SLM. Les liens de replay sont fournis ci-dessous.
Shinji Watanabe (Université Carnegie Mellon)
Topic: Passer de la reconnaissance vocale multilingue de quelques langues à plusieurs milliers
Hung-yi Lee (Université nationale de Taïwan)
Topic: Apprendre aux grands modèles de langage (LLM) à écouter et à parler
Ming Li (Université Duke Kunshan)
Topic: Diarisation neuronale séquence à séquence dans des scénarios en ligne et multimodaux
Shuai Wang (Université de Nanjing)
Topic: Une plongée (embedding) unique ne convient pas à tous : Repenser la modélisation du locuteur pour diverses applications de la parole
Pan Pan (Directrice de l'IA Business, Nexdata)
Topic: Au-delà de la pénurie de données : Concevoir des pipelines de données axés sur la qualité à différentes étapes de l'entraînement
Suivez-nous sur LinkedIn et YouTube pour ne manquer aucun replay ni aucun temps fort.
Pour les demandes des médias ou les demandes d'autorisation, veuillez contacter : [email protected]
Les grands modèles de langage (LLM) ont montré des capacités remarquables dans de nombreuses tâches en aval, et servent de modèles fondamentaux puissants pour la compréhension et la génération du langage.
Récemment, l’application des grands modèles de langage (LLM) aux tâches de traitement de la parole et de l’audio a suscité un intérêt croissant, incluant la reconnaissance automatique de la parole (ASR), le sous-titrage audio et des domaines émergents tels que les modèles de dialogue oral.Cependant, le développement de modèles de dialogue oral robustes basés sur les LLM dépend fortement de données conversationnelles réelles, qui reflètent la complexité de la communication humaine, incluant les pauses naturelles, les interruptions, les chevauchements de locuteurs et la diversité des styles de conversation.
La rareté de ce type de données, en particulier dans des contextes multilingues, constitue un obstacle majeur au progrès dans ce domaine.L’importance des données de conversation réelles va au-delà du simple progrès technologique : elles sont essentielles pour construire des systèmes d’IA capables de comprendre et de répondre de manière naturelle dans des environnements multilingues, dynamiques et riches en contexte.Cela est particulièrement crucial pour les systèmes d’interaction humain-IA de nouvelle génération, où le dialogue oral constitue le principal mode de communication.
Ainsi, ce défi et atelier visent à combler ce fossé en organisant le challenge de construction de modèles de langage de conversation multilingue (MLC-SLM) et en publiant un jeu de données de conversations multilingues réelles.
Le challenge comprend deux tâches, toutes deux visant à explorer le développement de modèles de langage vocal (SLM) :
Task I : Multilingual Conversational Speech Recognition
Objectif : Développer un modèle ASR multilingue basé sur les LLM.
Les participants recevront une segmentation oracle et des étiquettes de locuteur pour chaque conversation.
Cette tâche vise à améliorer la précision de la reconnaissance dans un environnement de conversation multilingue.
Task II : Multilingual Conversational Speech Diarization and Recognition
Objectif : Développer un système à la fois pour la diarisation des locuteurs (identifier qui parle et quand) et pour la reconnaissance (transcription de la parole en texte).
Aucune information préalable ou oracle ne sera fournie lors de l’évaluation (ex. pas de segments pré-découpés ni d’étiquettes de locuteurs).
Les systèmes basés sur pipeline ainsi que les systèmes end-to-end sont encouragés, offrant une flexibilité dans la conception et l’implémentation.
Pour la tâche I, la performance sera mesurée avec le Word Error Rate (WER) ou Character Error Rate (CER) selon les langues.
Pour la tâche II, la performance sera évaluée via le Diarization Error Rate (DER) et le WER ou CER minimal par permutation concaténée, appelé tcpWER ou tcpCER.Le DER est utilisé pour déterminer la meilleure permutation d’ID de locuteur entre les annotations oracle et les résultats de diarisation.Ensuite, les transcriptions et les références du même locuteur dans un enregistrement seront combinées pour déterminer le tcpWER ou tcpCER.Les soumissions seront toutes classées d’après le tcpWER ou le tcpCER.
10 mars 2025 : début des inscriptions
15 mars 2025 : diffusion des données d’entraînement
1er avril 2025 : mise à disposition du jeu de développement et du système de référence
15 mai 2025 : diffusion du jeu d’évaluation et ouverture du tableau de classement
30 mai 2025 : verrouillage du classement et ouverture du portail de soumission d’articles (système CMT)
15 juin 2025 : date limite pour la soumission des articles
1er juillet 2025 : notification des acceptations
22 août 2025 : tenue de l’atelier
Le jeu d’entraînement (Train) comprend environ 11 langues : anglais (en), français (fr), allemand (de), italien (it), portugais (pt), espagnol (es), japonais (jp), coréen (ko), russe (ru), thaï (th) et vietnamien (vi).
Chaque enregistrement consiste en une conversation à deux locuteurs sur des sujets attribués aléatoirement.
Les conversations sont naturelles et fluides, les locuteurs échangeant des dialogues significatifs sur chaque sujet.
Les enregistrements sont réalisés dans des environnements calmes en intérieur à l’aide de dispositifs tels que des iPhones.
Chaque enregistrement fournit la segmentation oracle et l’étiquette de locuteur pour le développement des systèmes de reconnaissance vocale et de diarisation des locuteurs.
Les tâches I et II utilisent le même jeu d’entraînement.
Le jeu de données anglais comprend environ 500 heures d’enregistrements provenant de différentes régions : anglais britannique, américain, australien, indien et philippin. Les autres langues apportent chacune environ 100 heures, pour un total d’environ 1500 heures de données conversationnelles multilingues.
Ce jeu de données est conçu pour fournir une ressource riche pour l’entraînement et l’évaluation des modèles de langage de conversation multilingue (MLC-SLM), en abordant les défis liés à la diversité linguistique, à la variabilité des locuteurs et à la compréhension contextuelle.
| Langue | Volume de Données (h) | Classification linguistique | Taux d'échantillonnage | Description |
|---|---|---|---|---|
| Anglais | 500 | Couvre 5 accents différents de l’anglais, avec des locuteurs provenant des États-Unis, du Royaume-Uni, des Philippines, d’Australie et d’Inde. Diversité de genres et d’âges, style de conversation naturel. Le taux d’erreur des mots est inférieur à 2 %. | ||
| 100 | Anglais Américain | 16K | ||
| 100 | Anglais Britannique | 16K | ||
| 100 | Anglais Philippin | 16K | ||
| 100 | Anglais Australien | 16K | ||
| 100 | Anglais Indien | 16K | ||
| Français | 100 | 16k | Enregistré sur un téléphone portable, l’enregistreur choisit plusieurs sujets familiers et réalise pour chacun une conversation fluide et naturelle. Les locuteurs doivent présenter une diversité de genres et d’âges. Le taux d’erreur des mots est inférieur à 2 %. | |
| Allemand | 100 | 16k | Enregistré sur un téléphone portable, l’enregistreur choisit plusieurs sujets connus et réalise pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et de genres variés. Le taux d’erreur des mots est inférieur à 2 %. | |
| Italien | 100 | 16k | L’enregistrement se fait sur un téléphone portable. L’enregistreur choisit plusieurs sujets familiers et réalise pour chacun une conversation naturelle et fluide. Les participants sont de différents âges et genres. Le taux d’erreur des mots reste inférieur à 2 %. | |
| Japonais | 100 | 16k | L’enregistrement est réalisé sur un téléphone portable. L’enregistreur choisit plusieurs sujets familiers et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et genres. Le taux d’erreur des phrases est inférieur à 5 %. | |
| Coréen | 100 | 16k | L’enregistrement se fait sur un téléphone portable. L’enregistreur aborde plusieurs sujets connus et enregistre pour chacun une conversation naturelle et fluide. Les participants sont de différents âges et genres. Le taux d’erreur des phrases reste inférieur à 5 %. | |
| Portugais (Europe) | 100 | 16k | L’enregistrement se fait sur un téléphone portable. L’enregistreur choisit plusieurs sujets connus et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et genres. Le taux d’erreur des mots reste inférieur à 2 %. | |
| Russe | 100 | 16k | L’enregistrement est réalisé sur un téléphone portable. L’enregistreur choisit plusieurs sujets familiers et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et de genres variés. Le taux d’erreur des mots reste inférieur à 2 %. | |
| Espagnol (Espagne) | 100 | 16k | L’enregistrement se fait sur un téléphone portable. L’enregistreur choisit plusieurs sujets familiers et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et de genres variés. Le taux d’erreur des mots est inférieur à 2 %. | |
| Thaï | 100 | 16k | L’enregistrement se fait sur un téléphone portable. L’enregistreur choisit plusieurs sujets familiers et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et genres. Le taux d’erreur des mots reste inférieur à 3 %. | |
| Vietnamien | 100 | 16k | L’enregistrement est réalisé sur un téléphone portable. L’enregistreur aborde plusieurs sujets connus et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et de genres variés. Le taux d’erreur des mots est inférieur à 2 %. |
Le jeu de développement (Dev) suit les mêmes paramètres que le jeu d’entraînement, mais contient environ 4 heures d’enregistrements pour chaque langue. Les tâches I et II utilisent le même jeu de développement.
Des jeux d’évaluation différents sont utilisés pour chaque tâche, appelés Eval_1 et Eval_2. Plus précisément, Eval_1 fournit les horodatages et les étiquettes des locuteurs (oracle), évalués avec le WER/CER. Eval_2 ne fournit ni horodatages ni étiquettes de locuteurs, ce qui nécessite l’utilisation d’un système de diarisation pour segmenter les enregistrements plus longs avant la reconnaissance.
Les participants peuvent accéder au jeu de données en signant l’accord d’utilisation des données et en remplissant le formulaire d’inscription. Après soumission, le lien de téléchargement des données sera envoyé par e-mail.
Vous pouvez accéder et télécharger l'ensemble de données d'évaluation open source via le lien fourni ci-dessous. Veuillez noter qu'un court formulaire d'inscription est nécessaire avant le téléchargement. Une fois votre demande approuvée, le lien de téléchargement du jeu de données sera fourni par e-mail dans un délai de 7 jours.
Si vous utilisez ce jeu de données dans votre recherche personnelle ou académique, veuillez en indiquer la source en conséquence.
[ Formulaire d'Inscription- Demander l'accès au jeu de données sponsorisé - Télécharger l'ensemble d'évaluation]
Tous les participants doivent respecter les règles suivantes pour être éligibles au challenge :
En plus des descriptions des systèmes pour le challenge, les participants sont encouragés à soumettre des articles de recherche mettant en avant des résultats innovants, des études de cas pratiques et des idées prospectives. Les sujets d’intérêt incluent, sans s’y limiter :
Les participants inscrits auront accès aux jeux de données d’entraînement et de test. Ils doivent signer un accord d’utilisation des données (voir ci-dessous), respecter la confidentialité et se conformer à l’accord de protection des données. Les jeux de données ne doivent être utilisés que dans le cadre du challenge de l’atelier, et toute redistribution ou utilisation à d’autres fins est strictement interdite. Il incombe aux participants de protéger les données contre tout accès non autorisé.
Pour participer, l’inscription est obligatoire. Veuillez téléverser l’accord d’utilisation des données signé et remplir le formulaire d’inscription . Le challenge débutera le 10 mars 2025.
Pour toute autre information concernant l’inscription, veuillez envoyer un e-mail à :[email protected]
E-mail officiel : [email protected]
Slack: https://join.slack.com/t/mlc-slm-challenge/shared_invite/zt-314nfsmhz-QjOJjhjK3OHYUtJyBRtPxA
1.Articles liés au challenge :
a. Les participants doivent soumettre UN seul article technique court (même si l’équipe participe aux deux tâches).
b. Length: 2-4 pages of content + 1 page for references.
c. Exigences de contenu :
i. Description claire du système pour évaluer la conformité aux règles et la validité de la soumission.
ii. Détails permettant la reproductibilité, incluant les jeux de données et modèles open-source utilisés, les stratégies d’augmentation de données, les architectures de modèles, les configurations d’entraînement, etc.
d. Tous les participants au challenge sont censés présenter un exposé ou un poster lors de l’atelier.
2.Articles hors challenge :
a. Longueur:4 pages de contenu + 1 page pour les références.
b. Sujets :Incluent, sans s’y limiter, les sujets listés sur le site du challenge.
3.Kit de l’auteur :
Veuillez utiliser le kit LaTeX fourni par Interspeech 2022 pour toutes les soumissions(https://www.interspeech2022.org/files/IS2022_paper_kit.zip)Notez que nous utilisons le kit Interspeech 2022 pour conserver un processus de relecture en simple aveugle.
4. Submission Portal
a.Soumettez votre article via le système de conférence CMT.
b.Le service Microsoft CMT a été utilisé pour gérer le processus de relecture par les pairs pour cette conférence. Ce service est fourni gratuitement par Microsoft, qui prend en charge tous les frais, y compris les coûts liés aux services cloud Azure ainsi qu’au développement et support logiciel.
FONDS TOTAL POUR LES PRIX : 20 000 $,, sponsorisé par Huawei Technologies.
Prix pour les équipes les mieux classées dans cette compétition (chaque tâche) :
MLC-SLM Tâche I
| Nom d'utilisateur | WER/CER | No. | Nom de l'équipe | Institution |
|---|---|---|---|---|
| tenp1 | 9.6 | 1 | TENP | Tencent Ethereal Audio Lab |
| sixteen-years | 9.67 | 2 | sixteen-years | Académie chinoise des sciences |
| t-asr | 9.83 | 3 | T-ASR | SHENZHEN TRANSSION HOLDINGS CO.LTD. |
| megaais | 10.08 | 4 | MegaAIS | Megatronix (Beijing) Technology Co.,Ltd. |
| maxiaoai | 10.56 | 5 | MaXiaoA | Mashang Consumer Finance Co.,Ltd.(MSCF) |
| ntu_speechlab | 10.58 | 6 | NTU-Speechlab | Université technologique de Nanyang |
| cheryfsai | 11.27 | 7 | Cheryfs-AI | Chery HuiYin Motor Finance Service Co.,Ltd. |
| seewo | 11.57 | 8 | seewo | Guangzhou Shirui Electronics Co.,Ltd. |
| daominhtri | 11.71 | 9 | Cake By VPBank | Cake By VPBank |
| maybe | 11.76 | 10 | May | Université normale de Shanghai |
MLC-SLM Tâche II
| Nom d'utilisateur | tcpWER/tcpCER | No. | Nom de l'équipe | Institution |
|---|---|---|---|---|
| megaais | 16.53 | 1 | MegaAIS | Megatronix (Beijing) Technology Co,Ltd |
| tenp1 | 17.49 | 2 | TENP | Tencent Ethereal Audio Lab |
| seewo | 17.67 | 3 | seewo | Guangzhou Shirui Electronics Co.,Ltd. |
| duke_kunshan | 18.08 | 4 | DKU | Université Duke Kunshan |
| sixteen-years | 19.27 | 5 | sixteen-years | Académie chinoise des sciences |
| cheryfsai | 26.3 | 6 | Cheryfs-Al | Chery HuiYin Motor Finance Service Co.,Ltd. |
| saengthong | 27.25 | 7 | ST-ShinozakiLab | Institut des sciences de Tokyo |
| fosafer | 31.68 | 8 | FOSAFER_ RESEARCH | Beijing Fosafer Information Technology Co., Ltd. |
| voicecode | 55.96 | 9 | VoiceCode | VOICECODE TECHNOLOGY PTE. LTD. |
| 517517 | 59.4 | 10 | INFX | Université du Zhejiang |
Note : Seules les 10 meilleures entrées pour chaque tâche sont listées. Pour toute question concernant les résultats des équipes, veuillez contacter le comité d'organisation.
Dock 14 au Centre de Congrès Rotterdam Ahoy, Rotterdam, Pays-Bas
Frais d'inscription : 50 €
Lei Xie, Professeur, Université Polytechnique du Nord-Ouest (Chine)
Shinji Watanabe, Professeur Associé, Université Carnegie Mellon (USA)
Eng Siong Chng, Professeur, Université Technologique de Nanyang (Singapour)
Junlan Feng, IEEE Fellow & Scientifique en Chef, China Mobile (Chine)
Shuai Wang, Chercheur, Université de Nanjing (Chine)
Longshuai Xiao, Huawei Technologies (Chine)
Khalid Choukri, Secrétaire Général, Association Européenne des Ressources Langagières (France)
Qiangze Feng, Co-fondateur & Data Scientist, Nexdata (USA)
Daliang Wang, Data Scientist, Nexdata (USA)
Hexin Liu, Chercheur Postdoctoral, Université Technologique de Nanyang (Singapour)
Pengcheng Guo, Doctorant, Université Polytechnique du Nord-Ouest (Chine)
Bingshen Mu, Doctorant, Université Polytechnique du Nord-Ouest (Chine)
Zhaokai Sun, Étudiant en Master, Université Polytechnique du Nord-Ouest (Chine)




