Modifications principales par rapport à la version 1 de Manulex Morpho

Comme pour la base Manulex-Infra, la version 2 de Manulex-Morpho apporte des modifications majeures par rapport à la version 1. Une large partie résulte (a) de l’utilisation de segmentations G-Ph et Ph-G distinctes, (b) de la manière dont le codage positionnel des associations est réalisé (association initiale, finale ou interne du mot), et (c) du codage de la consistance Ph-G lorsque les graphèmes muets correspondent à des flexions nominales (genre ou nombre), ainsi qu’à des supports de dérivation/flexion de genre (par exemple, le ‘t’ de ‘petit’ vs. ‘petite’, le ‘d’ de ‘bavard’ vs. ‘bavarde’); voir onglet ‘codes morphologiques’.

• Segmentations G-Ph (lecture) et Ph-G (écriture) distinctes. Dans la version 1 de Manulex_Morpho, la description de ces associations a initialement été pensée dans le sens de la lecture, du graphème au phonème. Les mêmes associations étaient exploitées pour analyser celles entre phonème et graphème (sens de l’écriture). Ce choix engendre des problèmes d'estimation des consistances surtout –mais pas exclusivement- lorsque les mots incluent des lettres silencieuses en finale. Par exemple, pour la lecture, l’association G-Ph finale du mot ‘nid’ qui se termine par un ‘d’ muet sera très consistante car le ‘d’ final des mots est rarement prononcé. A l’inverse, le ‘d’ final du mot ‘sud’ est prononcé, et la consistance de l’association entre le graphème ‘d’ et le phonème /d/ en finale de mot sera donc faible. La présence de lettres silencieuses en finales des mots doit être considérée différemment dans les analyses concernant l'écriture (associations Ph-G) dans la mesure où un graphème silencieux (par exemple, le 'd' de 'foulard', /fulaR/) ne peut être prédit (à moins d'en connaître l'existence). La solution adoptée dans Manulex_Morpho v.2 pour décrire les associations Ph-G est de rassembler les lettres silencieuses finales avec le dernier phonème prononcé. Par exemple, dans le sens de l’écriture, le mot ‘renard’ a un /R/ qui code '-rd', tout comme les mots 'gare' et 'terre' dans lesquels /R/ code '-re' ou '-rre' (la prononciation de ‘renard’ devient ainsi compatible avec les erreurs de production orthographique ‘renarre’, ou ‘renare’). Le principe de codage est similaire lorsque le dernier graphème prononcé correspond à une voyelle: la finale de 'dans' et 'étang' est /ã/ pour '-ans' et '-ang'.

• Codage positionnel des associations. 1) Les flexions nominales de genre, suivies ou non d'une flexion de nombre, sont codées comme graphèmes finaux. 2) Similairement, les flexions verbales sont codées comme graphèmes finaux, qu'elles soient ou non suivies d'une flexion de genre ou nombre (par exemple, les '-ées' des participes passés au féminin pluriel). Toutefois, les flexions verbales en –ant, -it, -is, et –t des participes présents et des participes passés sont codées comme internes lorsque suivies d’une flexion de genre car cette dernière modifie la prononciation de la consonne finale de la flexion verbale (t, s). Cette exception est nécessaire afin de préserver la consistance de prononciations des flexions verbales (e. g.,' -ant' dans ‘glissant’ et dans ‘glissante’). 3) Les autres graphèmes (consonantiques et vocaliques) non suivis d'une voyelle (flexion nominale de genre 'e' ou non) mais suivis d'une flexion nominale de nombre sont codés comme finaux (par exemple 'bavards' et 'buvards' avec 'd' comme graphème final; 'bouquets' avec 'et' comme graphème final, 'caméras' avec 'a' comme graphème final ). Ce choix assure le même traitement de ces consonnes/voyelles selon que le nom soit au singulier ou au pluriel.

• Consistance Ph-G (pour l'écriture) lorsque les graphèmes silencieux correspondent à des flexions nominales (genre ou nombre) ou à des supports de dérivation/flexion: les flexions nominales sont indicées avec le code ‘3’ et les supports de dérivation/flexion avec le code ‘6’ (voir onglet ‘codes morphologiques’). La consistance des associations Ph-G pour les flexions nominales est établie à 100% puisque la probabilité que le mot termine par un ‘e’ est de 100% si le mot est fléchi en genre, et la probabilité que le mot termine en ‘s’ ou ‘x’ est de 100% si le mot est fléchi en nombre. La consistance des supports de dérivation/flexion qui correspondent à des consonnes silencieuses (e. g., ‘t’ dans ‘aliment’, ‘d’ dans ‘grand’) est également fixée à 100% puisque le graphème silencieux peut être prédit à partir de la connaissance des mots dérivés (‘alimentation’, ‘alimentaire’, ‘grandeur’) ou des mots fléchis (‘grande’). La prédiction des graphèmes silencieux est généralement simple pour les finales en –b (plomb), -d (grand), -g (long, sang), -l (cristal, gentil), -p (camp), -t (absent) même si la prononciation du graphème peut différer entre les formes dérivées/fléchies (par exemple ‘g’ prononcé /g/ dans ‘longueur’ et /ʒ/ dans ‘longer’). Les graphèmes en –f sont, quant à eux, transformés en /v/ lors des dérivations/flexions (sportif – sportive, neuf – neuve), la présence d’un –v en finale de mots étant illégale en français. Enfin, les finales en –s (gros, gris, frais), en –x (choix, doux), et –z (riz) sont associées aux phonèmes /s/, /z/, /S/ et les consistances Ph-G sont donc estimées en fonction de la probabilité de chacun des graphèmes silencieux à partir du phonème (e. g. le /z/ de ‘choisir’ est compatible avec ‘x’ dans le mot ‘choix’, mais un ‘s’ (*chois) ou un ‘z’ (*choiz) sont également possibles).

• Ajout, pour chaque mot, de l’association G-Ph ou Ph-G la moins consistante, et de l’association la moins fréquente. A noter que l’association la moins consistante n’est pas nécessairement la moins fréquente, et vice-versa.

• Mesures de la théorie de l'information (surprise, entropie) calculées sur les associations G-Ph et Ph-G. L'entropie mesure le niveau d'incertitude associé à une distribution de probabilités. Elle est mesurée en bit d’information (0 ou 1). Dans le cas des associations G-Ph (ou Ph-G), l’entropie mesure l’incertitude liée à la prononciation d’un graphème donné (ou à l’orthographe associée à un phonème donné). Par exemple, l’incertitude quant à la prononciation du graphème ‘v’ (comme dans ‘ville’) est nulle puisque ‘v’ est toujours prononcé /v/. Inversement, la prononciation du graphème ‘eu’ (neuf, deux) est incertaine puisque ce graphème est parfois prononcé comme dans le mot ‘deux’ et parfois comme dans le mot ‘neuf ‘. L’entropie d’un graphème (ou phonème) est fonction à la fois du nombre de prononciations possible du graphème (ou d’orthographes pour un même phonème) et de la probabilité (consistance) de chacune des associations G-Ph (ou Ph-G). La valeur minimale d’entropie est égale à 0 (aucune incertitude) comme c’est le cas pour le graphème ‘v’. La valeur maximale de l'entropie (incertitude maximale) dépend du nombre d'alternatives et de la distribution de probabilité des associations G-Ph ou Ph-G. Au plus la valeur d’entropie est haute, au plus l’incertitude est donc élevée. Ainsi, l’entropie du phonème /ɑ̃/ en finale de mot est très élevée puisqu’une dizaine d’orthographes sont possibles (en, an, aon, emps, ang…). Le calcul de l’entropie passe par le calcul de la ‘surprise’ associée à chaque association G-Ph (ou Ph-G). Elle correspond à une transformation logarithmique inverse (en base 2) de la probabilité (consistance) de chacune des associations. La surprise est donc d’autant plus faible que l’association est probable.

• Modifications et corrections de plusieurs codes phonologiques et segmentations en graphèmes et phonèmes

• Suppression de la distinction entre les deux ‘a’ (/a/ de ‘patte’ et /ɑ/ de ‘pâte’) dans le calcul des consistances

• Les mots incluant le graphème ‘ai’ (‘maison’, ‘lainage’) acceptent fréquemment la prononciation /E/ ou /e/. La consistance de l’association G-Ph ne tient plus compte de cette distinction.

• Introduction des différences entre les ‘e’ obligatoirement prononcés, obligatoirement muets, ou optionnel (voir onglet ‘codes phonétiques’)

• La consistance G-Ph pour le graphème ‘e’ qui correspond à un schwa optionnel (‘reste’, ‘perle’) est fixée à 100 puisque le ‘e’ peut ou non être prononcé.

• Dans le cas des associations Ph-G seulement, les quelques rares consonnes muettes en position interne (exemple : ‘m’ dans ‘automne’, ‘p’ dans ‘baptême’) ne sont pas présentes dans le signal de parole, et leur consistance Ph-G est donc de 0%

• Cas du ‘e’ suivi par deux consonnes identiques. Le codage, dans le sens de la lecture a été uniformisé en indiquant le ‘e’ suivi de deux consonnes identiques comme .e[CC]. (avec CC pour signaler 2 consonnes identiques). Le mot ‘femme’ est donc codé comme ‘f.e[CC].mm.e’. Sa consistance basse résulte du fait que ‘e’ suivit d’une double consonne est généralement prononcé /e/ ou /E/. Toutefois, ceci n’est réalisée que lorsque le ‘e’ n’est pas inclus dans un groupe codé morphologiquement (indice ‘6’ ; support de dérivation/flexion) tel que dans ‘ancienne’ dont le ‘enn’ est codé ‘6enn’. Ce codage des ‘e[CC]’ n’est réalisé que pour les associations G-Ph mais pas dans les associations Ph-G puisque, en Français, rien ne signale la présence du doublet dans le signal de parole.

• Cas des mots incluant –eill ou –eil non précédés de ‘u’ ( ‘abeille’, ‘bienveillant’, ‘sommeil’). Le codage a été modifié en regroupant en ‘eil’ ou ‘eill’. Dans ces groupes, 'il' et ‘ill’ sont toujours associés à la semi-voyelle /j/, jamais à la consonne /l/.

• Afin d’éliminer quelques rares associations G-Ph ou Ph-G, les noms propres sont exclus des analyses.

• Ajout de la structure phonologique Consonne-Voyelle et identification des clusters consonantiques

• Depuis la ver.2.4, les valeurs par token sont calculées en utilisant une transformation logarithmique de la fréquence des mots, log10(fréquence+1).