Shtooka

Shtooka est un projet lancé par Nicolas Vion visant à fournir sous licence libre des collections d'enregistrements sonores de mots, expressions, proverbes prononcés par des locuteurs dans leur langue maternelle. Ces collections sont utiles dans l'apprentissage des langues, la recherche linguistique, etc. Le projet Shtooka existe depuis 2006[1] et s'est constitué en association loi de 1901 en 2009. Wikimedia France a depuis soutenu le développement de versions web du logiciel[2]. Le projet a été repris par Wikimédia France et Nicolas Vion en 2015, avec la création d'une application web rebaptisée Lingua Libre[2].

Enregistrements

Plus de 100 000 enregistrements[3] sont disponibles aux formats Ogg, MP3 et embarquent des métadonnées sur le fichier audio. Ces métadonnées, regroupées sous le nom de métadonnées SWAC (ou SWAC Metatags[4]), fournissent une quarantaine d'informations essentielles pour l'apprentissage telles que:

  • des informations sur ce qui est prononcé (le texte prononcé, la langue de prononciation du mot, ...)
  • des informations sur le locuteur (nom, sexe, année de naissance, le pays et la région d'origine du locuteur (permettant par exemple de discerner les accents).
  • des informations sur la prononciation du mot
  • des informations sur la collection audio
  • des informations techniques

Des enregistrements existent pour plusieurs langues: français, anglais, néerlandais, chinois, russe, tchèque, suédois, ukrainien, biélorusse. Ils sont utilisés dans le wiktionnaire[5].

Le projet a mis au point une technique originale permettant d'enregistrer environ 1 000 mots à l'heure [3].

Logiciels

Le projet développe également des logiciels pour ses besoins propres publiés sous licence GPL:

  • Kit Shtooka
    • Shtooka Explorer permet d'explorer les collections audio
    • Shtooka Recorder permet d'enregistrer la prononciation de mots et expressions
    • Shtooka Repeat permet de faciliter l'apprentissage du vocabulaire
  • Swac Tools permettant plus spécifiquement de travailler sur les métadonnées SWAC
    • Swac Get
    • Swac Explore
    • Swac Play
    • Swac Scan

Licences libres

Shtooka est attaché aux licences libres et publie:

Voir aussi

Références

Liens externes

  • (en) Site officiel
  • http://packs.shtooka.net/ Base de données des fichiers sons de Shtooka (SWAC)
  • (fr) Perroquet, un logiciel qui permet d'améliorer la compréhension orale d'une langue en écoutant des extraits de films en version originale. Il faut pouvoir comprendre et restituer ce qui a été dit lors d'un extrait pour pouvoir voir la suite du film.
  • (fr) Tatoeba, base de données de phrases traduites dans plusieurs langues en collaboration avec le projet Shtooka pour l'audio
  • Yazik Recorder (0.5, 2007) -- un projet clone pour Linux, par Eric Streit (aka Ericounet)
  • SpeechRecorder (v.2.14, ) -- un projet similaire pour Windows OS et Mac OS, par Christoph Draxler et Klaus Jänsch.
  • Portail des langues
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.