4,72 millions de paires de corpus parallèles chinois-ouïghour

Données de corpus parallèle chinois-ouïghour

corpus aligné

données de corpus parallèle

données de corpus aligné

4,72 millions d’segments bilingues alignés chinois-ouïghour, enregistrées au format texte (.txt). Le corpus a été soigneusement nettoyé, anonymisé et vérifié, offrant une base robuste pour les analyses linguistiques et les systèmes de traduction automatique.

Il s'agit d'un ensemble de données payant destiné à un usage commercial, à la recherche et plus encore. Ces Jeux de données prêts à l'emploi et sous licence contribuent au lancement de projets d'IA.

Jeux de données recommandés

5 500 000 paires de corpus parallèles turc-anglais

5,5 millions de paires de données parallèles turc-anglais, format de stockage des données en fichier txt, couvrant divers domaines. Les données ont été nettoyées, anonymisées et vérifiées, et peuvent servir de corpus de base pour l'analyse des données textuelles, utilisé dans des domaines tels que la traduction automatique.

Corpus parallèle turc anglais

1,98 million de données de corpus parallèles chinois-polonais

1,98 million de paires de textes parallèles chinois-polonais, format de stockage : TXT. Nettoyés, anonymisés, vérifiés. Utilisable comme corpus de base pour la traduction automatique.

Corpus parallèle chinois-polonais corpus aligné données de corpus parallèle données de corpus aligné

1,99 million de paires de corpus parallèles chinois-tchèque

Ce vaste corpus bilingue sino-tchèque contient 1,99 million de paires de phrases en chinois et en tchèque, stockées au format texte (.txt). Les données ont été nettoyées, désensibilisées et vérifiées, offrant une ressource fiable pour la traduction automatique et l’analyse de textes multilingues.

Corpus parallèle chinois-tchèque corpus aligné données de corpus parallèle données de corpus align

980 000 paires de corpus parallèles chinois-ourdou

Corpus parallèle chinois-ourdou composé de 980 000 paires de traductions bidirectionnelles en format texte (.txt), couvrant les domaines du tourisme, de la vie quotidienne, de l’actualité, etc. Les données ont été nettoyées, désensibilisées et contrôlées, servant de base fiable pour les analyses textuelles et les systèmes de traduction automatique.

Données de corpus parallèle chinois-ourdou corpus aligné données de corpus parallèle données de corpus aligné

5,01 millions de paires de corpus parallèles chinois-tibétain

Corpus parallèle chinois-tibétain comprenant 5,01 millions de paires de segments traduits. Le fichier est au format .txt. Nettoyé, anonymisé et validé, il constitue une ressource de référence pour l’analyse textuelle et la traduction automatique.

Données de corpus parallèle chinois-tibétain corpus aligné données de corpus parallèle données de corpus aligné

1,14 million de paires de corpus parallèles chinois-hébreu

Ce vaste corpus bilingue sino-hébreu contient 1,14 million de paires de phrases couvrant divers domaines tels que le tourisme, la vie quotidienne et l’actualité. Les données ont été nettoyées, désensibilisées et vérifiées, offrant une ressource fiable pour la traduction automatique et l’analyse de textes multilingues.

Données de corpus parallèle chinois-hébreu corpus parallèle chinois-hébreu données de corpus parallèle données de corpus aligné

12 820 000 paires de corpus parallèles sino-coréens

12 820 000 paires de corpus de traduction parallèle sino-coréen, le format de stockage de données est un document TXT, couvrant la parole, le tourisme, les actualités, la finance et d'autres domaines. Il a été nettoyé, désensibilisé et inspecté, et peut être utilisé comme corpus de base pour l'analyse de données de texte dans la Traduction automatique et dans d'autres domaines.

Corpus parallèle sino-coréen Données de corpus Corpus d'alignement Données de corpus parallèles Données de corpus d'alignement

3,14 millions de paires de corpus parallèles chinois-espagnol

Ce vaste corpus bilingue sino-espagnol contient 3,14 millions de paires de phrases issues du domaine scientifique et technologique. Les données ont été nettoyées, désensibilisées et vérifiées, offrant une ressource fiable pour la traduction automatique et l’analyse de textes multilingues.

Données de corpus parallèle chinois-espagnol corpus parallèle chinois-espagnol données de corpus parallèle corpus aligné données de corpus parallèle données de corpus aligné

4,72 millions de paires de corpus parallèles chinois-ouïghour

Données de corpus parallèle chinois-ouïghour corpus aligné données de corpus parallèle données de corpus aligné

4,72 millions d’segments bilingues alignés chinois-ouïghour, enregistrées au format texte (.txt). Le corpus a été soigneusement nettoyé, anonymisé et vérifié, offrant une base robuste pour les analyses linguistiques et les systèmes de traduction automatique.

Niveau de maturité du projet

Données de corpus parallèle chinois-ouïghour

corpus aligné

données de corpus parallèle

données de corpus aligné