en

Please fill in your name

Mobile phone format error

Veuillez entrer le téléphone

Veuillez entrer le nom de votre entreprise

Veuillez entrer votre e-mail professionnel

Veuillez entrer l'exigence de données

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

L'exigence de données ne peut pas faire moins de 5 mots et ne peut pas être constituée uniquement de chiffres

Programme Atelier MLC-SLM

Date et Lieu : 22 août, Dock 14 – Centre de Congrès Rotterdam Ahoy

Créneau horaire Activité
8:30-9:00
Remise des badges
9:00-10:00
Conférence principale 1 : Shinji Watanabe
Passage à l'échelle de la reconnaissance vocale multilingue : d'une poignée à des milliers de langues
10:00-10:30
Pause café
10:30-11:00
Résumé du Défi + Cérémonie de Remise des Prix
11:00-12:00
Session orale :
1. La soumission de Seewo au MLC-SLM : Leçons tirées des modèles de raisonnement de la parole, Intervenant : Bo Li
2. Système de reconnaissance vocale multilingue Transsion pour le Défi MLC-SLM 2025, Intervenant : Xiaoxiao Li
3. Triple X : Un système de reconnaissance vocale multilingue basé sur les LLM pour le Défi INTERSPEECH2025 MLC-SLM, Intervenante : Miaomiao Gao
4. Le système TEA-ASLP pour la reconnaissance de parole conversationnelle multilingue et la diarisation speaker dans le Défi MLC-SLM 2025, Intervenant : Hongfei Xue
12:00-13:00
Pause déjeuner
13:00-14:00
Conférence principale 2 : Hung-yi Lee
Progrès dans les modèles de langage parlés
14:00-14:30
Session orale :
1. ILT : Apprentissage LoRA itératif par Focus–Feedback–Fixation pour la reconnaissance vocale multilingue, Intervenant : Qingliang Meng
2. Système BUT pour le Défi MLC-SLM, Intervenant : Alexander Polok
14:30-15:00
Pause café
15:00-15:30
Conférence invitée 1 : Ming Li
Diarisation neuronale séquence à séquence dans des scénarios en ligne et multimodaux
15:30-16:00
Conférence invitée 2 : Shuai Wang
Un plongement ne convient pas à tous : Repenser la modélisation du locuteur pour diverses applications de la parole
16:00-16:30
Conférence invitée 3 : Pan Pan
Au-delà de la rareté des données : Concevoir des pipelines de données priorisant la qualité à différentes étapes de l'entraînement
16:30-17:30
Posters
Canaux d'Inscription à l'Atelier : Inscription officielle via Interspeech: (Veuillez sélectionner "Workshop on Multilingual Conversational Speech Language Model" lors de votre inscription)Cliquez sur le lien
Inscription sur place :Cliquez sur le lien
Frais d'inscription : 50 €Les participants inscrits bénéficieront des pauses-café et d'un déjeuner le jour de l'atelier.
Note : Pour les participants s'inscrivant sur place, le paiement doit être effectué en espèces sur le lieu de l'événement.
Conférence principale 1
Shinji Watanabe, Professeur Associé, Université Carnegie Mellon
Passer à l'échelle de la reconnaissance vocale multilingue : d'une poignée à des milliers de langues
Shinji Watanabe est professeur associé à l'Université Carnegie Mellon à Pittsburgh, PA. Il a obtenu ses diplômes de B.S., M.S. et Ph.D. (Dr. Eng.) de l'Université Waseda à Tokyo, au Japon. Il a été chercheur scientifique aux laboratoires NTT Communication Science à Kyoto, Japon, de 2001 à 2011, chercheur invité au Georgia Institute of Technology à Atlanta, GA, en 2009, et chercheur principal senior aux Mitsubishi Electric Research Laboratories (MERL) à Cambridge, MA, USA, de 2012 à 2017. Avant de rejoindre l'Université Carnegie Mellon, il était professeur de recherche associé à l'Université Johns Hopkins à Baltimore, MD, USA, de 2017 à 2020. Ses recherches portent sur la reconnaissance automatique de la parole, l'amélioration de la parole, la compréhension du langage parlé et l'apprentissage automatique pour le traitement de la parole et du langage. Il a publié plus de 500 articles dans des revues et conférences à comité de lecture et a reçu plusieurs prix, dont le prix du meilleur article à l'ISCA Interspeech en 2024. Il est rédacteur de domaine principal pour le IEEE Transactions on Audio Speech and Language Processing. Il est ou a été membre de plusieurs comités techniques, y compris l'APSIPA Speech, Language, and Audio Technical Committee (SLA), l'IEEE Signal Processing Society Speech and Language Technical Committee (SLTC), et le Machine Learning for Signal Processing Technical Committee (MLSP). Il est Fellow de l'IEEE et de l'ISCA.
Conférence principale 2
Hung-yi Lee, Professeur, Université Nationale de Taïwan
Progrès dans les modèles de langage parlés
Hung-yi Lee est professeur au département de génie électrique de l'Université nationale de Taïwan (NTU), avec une double affectation au département d'informatique et de génie de l'information de l'université. Ses recherches récentes se concentrent sur le développement de technologies permettant de réduire le besoin de données annotées pour le traitement de la parole (y compris la conversion vocale et la reconnaissance vocale) et le traitement du langage naturel (y compris le résumé abstractif et la réponse aux questions). Il a remporté le Salesforce Research Deep Learning Grant en 2019, l'AWS ML Research Award en 2020, le Outstanding Young Engineer Award de la Chinese Institute of Electrical Engineering en 2018, le Young Scholar Innovation Award de la Foundation for the Advancement of Outstanding Scholarship en 2019, le Ta-You Wu Memorial Award du ministère des Sciences et des Technologies de Taïwan en 2019, et le 59e Ten Outstanding Young Person Award in Science and Technology Research & Development de Taïwan. Il possède une chaîne YouTube enseignant la technologie de l'apprentissage profond en mandarin, qui compte plus de 300 000 abonnés.
Conférence invitée 1
Ming Li, Professeur, Université Duke Kunshan
Diarisation neuronale séquence à séquence dans des scénarios en ligne et multimodaux
Ming Li a obtenu son doctorat en génie électrique de l'Université de Californie du Sud en 2013. Il est actuellement professeur de génie électronique et informatique à la Division des sciences naturelles et appliquées et chercheur principal principal au Centre de recherche sur l'innovation numérique de l'Université Duke Kunshan. Il est également professeur affilié à l'École d'informatique de l'Université de Wuhan. Ses recherches portent sur les domaines du traitement audio, de la parole et du langage, ainsi que sur l'analyse et l'interprétation des signaux comportementaux multimodaux. Il a publié plus de 200 articles et a été membre du comité technique de la parole et du langage de l'IEEE et du comité technique du traitement de la parole et du langage de l'APSIPA. Il a été président de domaine à Interspeech 2016, 2018, 2020, 2024, 2025, SLT 2022 et ASRU 2025. Il est co-président du programme technique d'Odyssey 2022 et d'ASRU 2023. Il est membre du comité de rédaction de IEEE Transactions on Audio, Speech and Language Processing, Computer Speech and Language et APSIPA Transactions on Signal and Information Processing. Les travaux qu'il a co-écrits avec ses collègues ont remporté les premiers prix aux défis Interspeech Computational Paralinguistic 2011, 2012 et 2019, au défi ASRU 2019 MGB-5 ADI, aux défis Interspeech 2020 et 2021 Fearless Steps, aux défis VoxSRC 2021, 2022 et 2023, au défi ICASSP 2022 M2MeT, au défi IJCAI 2023 ADD, au défi ICME 2024 ChatCLR et au défi Interspeech 2024 AVSE. En tant que co-auteur, il a remporté le prix du meilleur article à DCOSS2009 et ISCSLP2014, ainsi que la shortlist du meilleur article à Interspeech 2024. Il a reçu le prix IBM Faculty Award en 2016, le prix du meilleur article de journal sur 5 ans de l'ISCA Computer Speech and Language en 2018 et le prix de réalisation jeunesse pour les réalisations de recherche scientifique exceptionnelles de l'enseignement supérieur chinois en 2020. Il est membre senior de l'IEEE.
Conférence invitée 2
Shuai Wang, Professeur Associé, Université de Nanjing
Un plongement ne convient pas à tous : Repenser la modélisation du locuteur pour diverses applications de la parole
Shuai Wang est professeur associé menant à la permanence (tenure-track) à l'Université de Nanjing et membre facultaire adjoint à l'Université chinoise de Hong Kong, Shenzhen (CUHK-SZ). Il a obtenu son doctorat de l'Université Jiao Tong de Shanghai en 2020 et son B.Sc. de l'Université polytechnique du Nord-Ouest en 2014. Le Dr Wang a publié plus de 60 articles sur la modélisation du locuteur et a reçu plusieurs distinctions, notamment la bourse IEEE Ramaswamy à l'ICASSP 2018, et la première place à la fois à VoxSRC 2019 et DIHARD 2019. Il est l'initiateur des projets open-source WeSpeaker et WeSep, qui sont largement adoptés par le monde universitaire et l'industrie.
Conférence invitée 3
Pan Pan, Directrice des Affaires IA, Nexdata
Au-delà de la rareté des données : Concevoir des pipelines de données priorisant la qualité à différentes étapes de l'entraînement
Leader visionnaire et architecte opérationnelle chez Nexdata, Pan Pan s'appuie sur plus d'une décennie d'expertise en données IA pour diriger des équipes d'élite dans la fourniture de solutions de bout en bout pour les LLM, la GenAI et les modèles d'IA traditionnels. Elle a exécuté avec succès plus de 1000 projets en intégrant une collecte de données multi-capteurs à l'échelle mondiale, une annotation assistée par l'IA et une plateforme unifiée qui rationalise l'ensemble du pipeline de données d'entraînement.

Replays des Conférences de l'Atelier MLC-SLM

Discours à l'affiche

Vous avez manqué les sessions en direct ? Vous pouvez maintenant revoir les conférences inspirantes de l'atelier du défi MLC-SLM. Les liens de replay sont fournis ci-dessous.

  • Shinji Watanabe (Université Carnegie Mellon)

    Topic: Passer de la reconnaissance vocale multilingue de quelques langues à plusieurs milliers

    [Voir le replay]

  • Hung-yi Lee (Université nationale de Taïwan)

    Topic: Apprendre aux grands modèles de langage (LLM) à écouter et à parler

    [Voir le replay]

  • Ming Li (Université Duke Kunshan)

    Topic: Diarisation neuronale séquence à séquence dans des scénarios en ligne et multimodaux

    [Voir le replay]

  • Shuai Wang (Université de Nanjing)

    Topic: Une plongée (embedding) unique ne convient pas à tous : Repenser la modélisation du locuteur pour diverses applications de la parole

    [Voir le replay]

  • Pan Pan (Directrice de l'IA Business, Nexdata)

    Topic: Au-delà de la pénurie de données : Concevoir des pipelines de données axés sur la qualité à différentes étapes de l'entraînement

    [Voir le replay]

Restez informé

Suivez-nous sur LinkedIn et YouTube pour ne manquer aucun replay ni aucun temps fort.

[Suivre sur LinkedIn]

[S'abonner sur YouTube]

Notes

Pour les demandes des médias ou les demandes d'autorisation, veuillez contacter : [email protected]

Motivation

Les grands modèles de langage (LLM) ont montré des capacités remarquables dans de nombreuses tâches en aval, et servent de modèles fondamentaux puissants pour la compréhension et la génération du langage.

Récemment, l’application des grands modèles de langage (LLM) aux tâches de traitement de la parole et de l’audio a suscité un intérêt croissant, incluant la reconnaissance automatique de la parole (ASR), le sous-titrage audio et des domaines émergents tels que les modèles de dialogue oral.Cependant, le développement de modèles de dialogue oral robustes basés sur les LLM dépend fortement de données conversationnelles réelles, qui reflètent la complexité de la communication humaine, incluant les pauses naturelles, les interruptions, les chevauchements de locuteurs et la diversité des styles de conversation.

La rareté de ce type de données, en particulier dans des contextes multilingues, constitue un obstacle majeur au progrès dans ce domaine.L’importance des données de conversation réelles va au-delà du simple progrès technologique : elles sont essentielles pour construire des systèmes d’IA capables de comprendre et de répondre de manière naturelle dans des environnements multilingues, dynamiques et riches en contexte.Cela est particulièrement crucial pour les systèmes d’interaction humain-IA de nouvelle génération, où le dialogue oral constitue le principal mode de communication.

Ainsi, ce défi et atelier visent à combler ce fossé en organisant le challenge de construction de modèles de langage de conversation multilingue (MLC-SLM) et en publiant un jeu de données de conversations multilingues réelles.

Définition des tâches et évaluation

Le challenge comprend deux tâches, toutes deux visant à explorer le développement de modèles de langage vocal (SLM) :

Task I : Multilingual Conversational Speech Recognition

Objectif : Développer un modèle ASR multilingue basé sur les LLM.

Les participants recevront une segmentation oracle et des étiquettes de locuteur pour chaque conversation.

Cette tâche vise à améliorer la précision de la reconnaissance dans un environnement de conversation multilingue.

Task II : Multilingual Conversational Speech Diarization and Recognition

Objectif : Développer un système à la fois pour la diarisation des locuteurs (identifier qui parle et quand) et pour la reconnaissance (transcription de la parole en texte).

Aucune information préalable ou oracle ne sera fournie lors de l’évaluation (ex. pas de segments pré-découpés ni d’étiquettes de locuteurs).

Les systèmes basés sur pipeline ainsi que les systèmes end-to-end sont encouragés, offrant une flexibilité dans la conception et l’implémentation.

Pour la tâche I, la performance sera mesurée avec le Word Error Rate (WER) ou Character Error Rate (CER) selon les langues.

Pour la tâche II, la performance sera évaluée via le Diarization Error Rate (DER) et le WER ou CER minimal par permutation concaténée, appelé tcpWER ou tcpCER.Le DER est utilisé pour déterminer la meilleure permutation d’ID de locuteur entre les annotations oracle et les résultats de diarisation.Ensuite, les transcriptions et les références du même locuteur dans un enregistrement seront combinées pour déterminer le tcpWER ou tcpCER.Les soumissions seront toutes classées d’après le tcpWER ou le tcpCER.

Dates Importantes (Heure AOE)

    10 mars 2025 : début des inscriptions

    15 mars 2025 : diffusion des données d’entraînement

    1er avril 2025 : mise à disposition du jeu de développement et du système de référence

    15 mai 2025 : diffusion du jeu d’évaluation et ouverture du tableau de classement

    30 mai 2025 : verrouillage du classement et ouverture du portail de soumission d’articles (système CMT)

    15 juin 2025 : date limite pour la soumission des articles

    1er juillet 2025 : notification des acceptations

    22 août 2025 : tenue de l’atelier

Description du Jeu de Données

Jeu d’entraînement

Le jeu d’entraînement (Train) comprend environ 11 langues : anglais (en), français (fr), allemand (de), italien (it), portugais (pt), espagnol (es), japonais (jp), coréen (ko), russe (ru), thaï (th) et vietnamien (vi).

    Chaque enregistrement consiste en une conversation à deux locuteurs sur des sujets attribués aléatoirement.

    Les conversations sont naturelles et fluides, les locuteurs échangeant des dialogues significatifs sur chaque sujet.

    Les enregistrements sont réalisés dans des environnements calmes en intérieur à l’aide de dispositifs tels que des iPhones.

    Chaque enregistrement fournit la segmentation oracle et l’étiquette de locuteur pour le développement des systèmes de reconnaissance vocale et de diarisation des locuteurs.

    Les tâches I et II utilisent le même jeu d’entraînement.

    Le jeu de données anglais comprend environ 500 heures d’enregistrements provenant de différentes régions : anglais britannique, américain, australien, indien et philippin. Les autres langues apportent chacune environ 100 heures, pour un total d’environ 1500 heures de données conversationnelles multilingues.

Ce jeu de données est conçu pour fournir une ressource riche pour l’entraînement et l’évaluation des modèles de langage de conversation multilingue (MLC-SLM), en abordant les défis liés à la diversité linguistique, à la variabilité des locuteurs et à la compréhension contextuelle.

Langue Volume de Données (h) Classification linguistique Taux d'échantillonnage Description
Anglais 500 Couvre 5 accents différents de l’anglais, avec des locuteurs provenant des États-Unis, du Royaume-Uni, des Philippines, d’Australie et d’Inde. Diversité de genres et d’âges, style de conversation naturel. Le taux d’erreur des mots est inférieur à 2 %.
100 Anglais Américain 16K
100 Anglais Britannique 16K
100 Anglais Philippin 16K
100 Anglais Australien 16K
100 Anglais Indien 16K
Français 100 16k Enregistré sur un téléphone portable, l’enregistreur choisit plusieurs sujets familiers et réalise pour chacun une conversation fluide et naturelle. Les locuteurs doivent présenter une diversité de genres et d’âges. Le taux d’erreur des mots est inférieur à 2 %.
Allemand 100 16k Enregistré sur un téléphone portable, l’enregistreur choisit plusieurs sujets connus et réalise pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et de genres variés. Le taux d’erreur des mots est inférieur à 2 %.
Italien 100 16k L’enregistrement se fait sur un téléphone portable. L’enregistreur choisit plusieurs sujets familiers et réalise pour chacun une conversation naturelle et fluide. Les participants sont de différents âges et genres. Le taux d’erreur des mots reste inférieur à 2 %.
Japonais 100 16k L’enregistrement est réalisé sur un téléphone portable. L’enregistreur choisit plusieurs sujets familiers et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et genres. Le taux d’erreur des phrases est inférieur à 5 %.
Coréen 100 16k L’enregistrement se fait sur un téléphone portable. L’enregistreur aborde plusieurs sujets connus et enregistre pour chacun une conversation naturelle et fluide. Les participants sont de différents âges et genres. Le taux d’erreur des phrases reste inférieur à 5 %.
Portugais
(Europe)
100 16k L’enregistrement se fait sur un téléphone portable. L’enregistreur choisit plusieurs sujets connus et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et genres. Le taux d’erreur des mots reste inférieur à 2 %.
Russe 100 16k L’enregistrement est réalisé sur un téléphone portable. L’enregistreur choisit plusieurs sujets familiers et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et de genres variés. Le taux d’erreur des mots reste inférieur à 2 %.
Espagnol
(Espagne)
100 16k L’enregistrement se fait sur un téléphone portable. L’enregistreur choisit plusieurs sujets familiers et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et de genres variés. Le taux d’erreur des mots est inférieur à 2 %.
Thaï 100 16k L’enregistrement se fait sur un téléphone portable. L’enregistreur choisit plusieurs sujets familiers et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et genres. Le taux d’erreur des mots reste inférieur à 3 %.
Vietnamien 100 16k L’enregistrement est réalisé sur un téléphone portable. L’enregistreur aborde plusieurs sujets connus et enregistre pour chacun une conversation fluide et naturelle. Les participants sont de différents âges et de genres variés. Le taux d’erreur des mots est inférieur à 2 %.

Jeu de développement

Le jeu de développement (Dev) suit les mêmes paramètres que le jeu d’entraînement, mais contient environ 4 heures d’enregistrements pour chaque langue. Les tâches I et II utilisent le même jeu de développement.

Jeu d’évaluation

Des jeux d’évaluation différents sont utilisés pour chaque tâche, appelés Eval_1 et Eval_2. Plus précisément, Eval_1 fournit les horodatages et les étiquettes des locuteurs (oracle), évalués avec le WER/CER. Eval_2 ne fournit ni horodatages ni étiquettes de locuteurs, ce qui nécessite l’utilisation d’un système de diarisation pour segmenter les enregistrements plus longs avant la reconnaissance.
Les participants peuvent accéder au jeu de données en signant l’accord d’utilisation des données et en remplissant le formulaire d’inscription. Après soumission, le lien de téléchargement des données sera envoyé par e-mail.

Accès Open Source

Vous pouvez accéder et télécharger l'ensemble de données d'évaluation open source via le lien fourni ci-dessous. Veuillez noter qu'un court formulaire d'inscription est nécessaire avant le téléchargement. Une fois votre demande approuvée, le lien de téléchargement du jeu de données sera fourni par e-mail dans un délai de 7 jours.

Obligation de Citation

Si vous utilisez ce jeu de données dans votre recherche personnelle ou académique, veuillez en indiquer la source en conséquence.

[ Formulaire d'Inscription- Demander l'accès au jeu de données sponsorisé - Télécharger l'ensemble d'évaluation]

Règles

Tous les participants doivent respecter les règles suivantes pour être éligibles au challenge :

Utilisation de ressources externes : Pour les deux pistes (Track I et Track II), l’usage de jeux de données externes et de modèles pré-entraînés (y compris les modèles de base pour la parole et les LLM) est autorisé. Toutes les ressources externes utilisées doivent être librement accessibles à tous les groupes de recherche et clairement indiquées dans le rapport final du système.
Augmentation de données : L’augmentation de données est permise sur le jeu d’entraînement fourni et peut inclure, sans s’y limiter, l’ajout de bruit ou de réverbération, la modification de la vitesse ou du ton.
Interdiction d’utiliser les jeux d’évaluation : Il est strictement interdit d’utiliser les jeux d’évaluation de quelque manière que ce soit non conforme aux règles. Cela inclut, mais sans s’y limiter, leur utilisation pour le fine-tuning ou l’entraînement du modèle.
Fusion multi-systèmes :Les participants ne sont pas autorisés à utiliser la fusion de systèmes pour la tâche I ou II. Les résultats soumis doivent provenir d’un seul modèle et non d’une fusion de résultats.
Exigences de soumission :Tous les participants doivent soumettre leur système. La soumission peut inclure les résultats finaux, les modèles et un Docker permettant d’effectuer directement l’inférence pour obtenir les résultats finaux, etc. Les instructions détaillées seront fournies après la publication de l’implémentation de référence. Veuillez noter que les noms des équipes et de leurs institutions affiliées qui ont confirmé leur participation mais n’ont soumis aucun fichier seront rendus publics.
Interprétation par les organisateurs : Les organisateurs se réservent le droit de fournir l’interprétation finale de ces règles. Dans des circonstances particulières, les organisateurs coordonneront l’interprétation si nécessaire.

Autres Sujets

En plus des descriptions des systèmes pour le challenge, les participants sont encouragés à soumettre des articles de recherche mettant en avant des résultats innovants, des études de cas pratiques et des idées prospectives. Les sujets d’intérêt incluent, sans s’y limiter :

Nouvelles architectures et algorithmes :Développement de nouvelles architectures et algorithmes pour l’entraînement des modèles de langage pour la parole (SLMs).
Pipelines de traitement des données audio :Conception de pipelines innovants pour traiter les données audio brutes, facilitant la collecte de données variées sur Internet pour l’entraînement des SLMs.
Génération de parole naturelle et émotionnellement riche :Algorithmes visant à produire une parole conversationnelle plus naturelle et expressive sur le plan émotionnel pour les systèmes de dialogue.
Exploitation de l’historique des conversations multi-tours :Approches utilisant l’historique des échanges multi-tours pour améliorer les résultats de reconnaissance et de diarisation.
Techniques d’évaluation et benchmarks :Techniques d’évaluation ou benchmarks innovants spécifiquement conçus pour l’évaluation des SLMs.
Nouveaux jeux de données :Création de nouveaux jeux de données, réels ou synthétiques, pour l’entraînement des modèles de langage et audio pour la parole.

Accès et Utilisation des Données

Les participants inscrits auront accès aux jeux de données d’entraînement et de test. Ils doivent signer un accord d’utilisation des données (voir ci-dessous), respecter la confidentialité et se conformer à l’accord de protection des données. Les jeux de données ne doivent être utilisés que dans le cadre du challenge de l’atelier, et toute redistribution ou utilisation à d’autres fins est strictement interdite. Il incombe aux participants de protéger les données contre tout accès non autorisé.

Inscription

Pour participer, l’inscription est obligatoire. Veuillez téléverser l’accord d’utilisation des données signé et remplir le formulaire d’inscription . Le challenge débutera le 10 mars 2025.

Pour toute autre information concernant l’inscription, veuillez envoyer un e-mail à :[email protected]

Système de référence

Github/MLC-SLM-Baseline

Directives de Soumission des Articles

1.Articles liés au challenge :

a. Les participants doivent soumettre UN seul article technique court (même si l’équipe participe aux deux tâches).

b. Length: 2-4 pages of content + 1 page for references.

c. Exigences de contenu :
  i. Description claire du système pour évaluer la conformité aux règles et la validité de la soumission.
  ii. Détails permettant la reproductibilité, incluant les jeux de données et modèles open-source utilisés, les stratégies d’augmentation de données, les architectures de modèles, les configurations d’entraînement, etc.

d. Tous les participants au challenge sont censés présenter un exposé ou un poster lors de l’atelier.

2.Articles hors challenge :

a. Longueur:4 pages de contenu + 1 page pour les références.

b. Sujets :Incluent, sans s’y limiter, les sujets listés sur le site du challenge.

3.Kit de l’auteur :

Veuillez utiliser le kit LaTeX fourni par Interspeech 2022 pour toutes les soumissions(https://www.interspeech2022.org/files/IS2022_paper_kit.zip)Notez que nous utilisons le kit Interspeech 2022 pour conserver un processus de relecture en simple aveugle.

4. Submission Portal

a.Soumettez votre article via le système de conférence CMT.

b.Le service Microsoft CMT a été utilisé pour gérer le processus de relecture par les pairs pour cette conférence. Ce service est fourni gratuitement par Microsoft, qui prend en charge tous les frais, y compris les coûts liés aux services cloud Azure ainsi qu’au développement et support logiciel.

Prix

FONDS TOTAL POUR LES PRIX : 20 000 $,, sponsorisé par Huawei Technologies.

Prix pour les équipes les mieux classées dans cette compétition (chaque tâche) :

1ère Place : 5 000 $
2ème Place : 3 000 $
3ème Place : 2 000 $

Wettbewerbsergebnisse

MLC-SLM Tâche I

Nom d'utilisateur WER/CER No. Nom de l'équipe Institution
tenp19.61TENPTencent Ethereal Audio Lab
sixteen-years9.672sixteen-yearsAcadémie chinoise des sciences
t-asr9.833T-ASRSHENZHEN TRANSSION HOLDINGS CO.LTD.
megaais10.084MegaAISMegatronix (Beijing) Technology Co.,Ltd.
maxiaoai10.565MaXiaoAMashang Consumer Finance Co.,Ltd.(MSCF)
ntu_speechlab10.586NTU-SpeechlabUniversité technologique de Nanyang
cheryfsai11.277Cheryfs-AIChery HuiYin Motor Finance Service Co.,Ltd.
seewo11.578seewoGuangzhou Shirui Electronics Co.,Ltd.
daominhtri11.719Cake By VPBankCake By VPBank
maybe11.7610MayUniversité normale de Shanghai

MLC-SLM Tâche II

Nom d'utilisateur tcpWER/tcpCER No. Nom de l'équipe Institution
megaais16.531MegaAISMegatronix (Beijing) Technology Co,Ltd
tenp117.492TENPTencent Ethereal Audio Lab
seewo17.673seewoGuangzhou Shirui Electronics Co.,Ltd.
duke_kunshan18.084DKUUniversité Duke Kunshan
sixteen-years19.275sixteen-yearsAcadémie chinoise des sciences
cheryfsai26.36Cheryfs-AlChery HuiYin Motor Finance Service Co.,Ltd.
saengthong27.257ST-ShinozakiLabInstitut des sciences de Tokyo
fosafer31.688FOSAFER_
RESEARCH
Beijing Fosafer Information Technology Co., Ltd.
voicecode55.969VoiceCodeVOICECODE TECHNOLOGY PTE. LTD.
51751759.410INFXUniversité du Zhejiang

Note : Seules les 10 meilleures entrées pour chaque tâche sont listées. Pour toute question concernant les résultats des équipes, veuillez contacter le comité d'organisation.

Lieu

Dock 14 au Centre de Congrès Rotterdam Ahoy, Rotterdam, Pays-Bas

Frais d'inscription pour assister à l'atelier

Frais d'inscription : 50 €

Organisateurs

    Lei Xie, Professeur, Université Polytechnique du Nord-Ouest (Chine)

    Shinji Watanabe, Professeur Associé, Université Carnegie Mellon (USA)

    Eng Siong Chng, Professeur, Université Technologique de Nanyang (Singapour)

    Junlan Feng, IEEE Fellow & Scientifique en Chef, China Mobile (Chine)

    Shuai Wang, Chercheur, Université de Nanjing (Chine)

    Longshuai Xiao, Huawei Technologies (Chine)

    Khalid Choukri, Secrétaire Général, Association Européenne des Ressources Langagières (France)

    Qiangze Feng, Co-fondateur & Data Scientist, Nexdata (USA)

    Daliang Wang, Data Scientist, Nexdata (USA)

    Hexin Liu, Chercheur Postdoctoral, Université Technologique de Nanyang (Singapour)

    Pengcheng Guo, Doctorant, Université Polytechnique du Nord-Ouest (Chine)

    Bingshen Mu, Doctorant, Université Polytechnique du Nord-Ouest (Chine)

    Zhaokai Sun, Étudiant en Master, Université Polytechnique du Nord-Ouest (Chine)

Sponsors

Partenaires médias

07836c32-1a2d-40c4-8781-8d0db11b941a