Reconnaissance optique de musique

La reconnaissance optique de musique (ou ROM), et en anglais Optical Music Recognition (ou OMR) est l'application de techniques de reconnaissance optique de caractères (OCR) aux partitions musicales imprimées, afin de les transformer en fichiers informatiques éditables ou jouables. Une fois capturée sous une forme interne, la musique peut être enregistrée dans les formats de fichiers couramment utilisés, comme MusicXML pour la partition et MIDI pour la lecture.

Histoire

Les premiers travaux de recherche universitaire sur la reconnaissance des partitions imprimées datent de la fin des années 1960, au MIT et dans d'autres institutions[1]. Par la suite les efforts se sont concentrés sur la localisation et la suppression des lignes de portée, facilitant la reconnaissance et l'analyse des symboles musicaux. Le premier produit de reconnaissance optique de musique à être commercialisé est MIDISCAN (maintenant SmartScore), édité en 1991 par la société Musitek.

La diffusion des smartphones depuis le milieu des années 2000, possédant des appareils photos de bonne qualité et une puissance de calcul toujours supérieure, a facilité le développement commercial des technologies ROM, en permettant aux utilisateurs finaux de scanner leurs partitions et d'utiliser des moteurs ROM depuis un appareil mobile.

Depuis le milieu des années 2010, l'utilisation de l'intelligence artificielle et des techniques d'apprentissage profond (deep learning en anglais) ont permis d'obtenir des résultats plus probants en matière de reconnaissance. La technologie Maestria développée la start-up française Newzik, sortie en Mai 2021, est un exemple récent d'application de deep learning dans le cadre d'une technologie ROM[2].

Principe de fonctionnement

Contrairement à la reconnaissance optique de caractères où les mots sont analysés séquentiellement, la notation musicale comprend des éléments simultanés, comme des voix multiples, et des symboles pouvant indiquer des marques d'expression, non liés aux notes et positionnés à proximité. Par conséquent, la relation spatiale entre les notes, les marques d'expression, les nuances, les articulations et autres notations musicales est une partie importante de l'expression musicale.

Jeux de données

Le développement des technologies ROM a bénéficié de jeux de données offrant une taille et une diversité nécessaire à la fiabilité de ces technologies. Cependant, la mise à disposition de ces jeux de données se heurte à des contraintes légales liées au droit d'auteur.

La société française Newzik a contourné le problème au cours du développement de sa technologie ROM Maestria en utilisant un moteur de génération aléatoire de partitions. L'utilisation de données synthétique, non-soumises au droit d'auteur, a en outre permis de confronter le moteur d'intelligence artificiel développé par la start-up à des formes musicales rares, peu présentes dans le corpus réel, et ainsi d'atteindre une plus grande précision de reconnaissance musicale[3].

Logiciels

Logiciels propriétaires

  • Maestria, développée par Newzik et intégrée dans son écosystème de partition numérique[4].
  • Capella-scan, édité par Capella Software AG[5]
  • SharpEye MusicReader par Fortenotation[6]
  • MIDI-Connections Scan par MIDI-Connections[7]
  • OMeR (Optical Music easy Reader), add-on pour les logiciels shareware Harmony Assistant et Melody Assistant, édités par Myriad Software[8]
  • PhotoScore par Neuratron[9]. La version light de PhotoScore est utilisée dans Sibelius.
  • SharpEye par Visiv[10]
  • SmartScore par Musitek. [11] Anciennement appelé MIDISCAN. (SmartScore Lite est utilisé dans Finale).

Logiciels libres

  • Audiveris (dernière version 5.2 de [12])

Logiciels assimilés ROM

PDFtoMUSIC, édité par Myriad, est souvent considéré comme un logiciel de ROM, mais il ne réalise en fait aucune reconnaissance optique de symboles musicaux. Le programme lit simplement les fichiers PDF qui ont été créés par un programme d'édition de partition, et identifie les glyphes musicaux qui ont été saisis directement en tant que caractères d'une police de notation musicale. La reconnaissance optique consiste en fait à déduire ces symboles musicaux à partir de la position des glyphes sur la page du document PDF, et à les assembler dans la partition résultante. Seule la version PRO peut exporter vers un fichier MusicXML, alors que la version standard ne produit qu'un fichier éditable par l'éditeur de partitions de Myriad. [13]

Voir aussi

  • Music information retrieval (MIR) couvre le problème plus large d'acquisition d'informations musicales issues de différents supports, comme les partitions musicales ou l'audio.
  • La reconnaissance optique de caractères (OCR) est la reconnaissance du texte qui peut être appliqué à la numérisation de documents, de manière analogue à l'OMR. Cependant, un système OMR complet doit représenter fidèlement le texte qui est présent dans les partitions musicales, donc l'OMR est de fait un sur-ensemble de l'OCR[14].

Références

  1. (en) Pruslin, Dennis Howard, « Automatic Recognition of Sheet Music », Perspectives of New Music, vol. 11, no 1, , p. 250–254 (lire en ligne, consulté le )
  2. (en-US) Philip Rothman, « Newzik introduces interactive LiveScores with Maestria, AI-based optical music recognition », sur Scoring Notes, (consulté le )
  3. « Apprendre le solfège à des algorithmes avec Marie Chupeau, chercheuse en intelligence artificielle » (consulté le )
  4. « LiveScores: Un Pont entre Papier et Numérique », sur Newzik (consulté le )
  5. Info capella-scan
  6. SharpEye MusicReader
  7. SCAN 2.1
  8. « OMeR »(ArchiveWikiwixArchive.isGoogle • Que faire ?) (consulté le )
  9. PhotoScore Ultimate 8
  10. SharpEye
  11. SmartScore
  12. Audiveris - page Github
  13. « PDFtoMusic Pro »(ArchiveWikiwixArchive.isGoogle • Que faire ?), myriad-online.com, (consulté le )
  14. David Bainbridge et Tim Bell, « The challenge of optical music recognition », Computers and the Humanities, vol. 35.2, , p. 95-121 (lire en ligne, consulté le )

Liens externes

  • Portail du logiciel
  • Portail de la musique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.