Modifications principales par rapport à la version 1 de Manulex Morpho
Comme pour la base Manulex-Infra, la version 2 de
Manulex-Morpho apporte des modifications majeures par rapport à
la version 1. Une large partie résulte (a) de l’utilisation de
segmentations G-Ph et Ph-G distinctes, (b) de la manière dont le
codage positionnel des associations est réalisé (association
initiale, finale ou interne du mot), et (c) du codage de la
consistance Ph-G lorsque les graphèmes muets correspondent à des
flexions nominales (genre ou nombre), ainsi qu’à des supports de
dérivation/flexion de genre (par exemple, le ‘t’ de ‘petit’ vs.
‘petite’, le ‘d’ de ‘bavard’ vs. ‘bavarde’); voir onglet ‘codes
morphologiques’.
• Segmentations G-Ph (lecture) et Ph-G (écriture) distinctes.
Dans la version 1 de Manulex_Morpho, la description de ces
associations a initialement été pensée dans le sens de la
lecture, du graphème au phonème. Les mêmes associations étaient
exploitées pour analyser celles entre phonème et graphème (sens
de l’écriture). Ce choix engendre des problèmes d'estimation des
consistances surtout –mais pas exclusivement- lorsque les mots
incluent des lettres silencieuses en finale. Par exemple, pour
la lecture, l’association G-Ph finale du mot ‘nid’ qui se
termine par un ‘d’ muet sera très consistante car le ‘d’ final
des mots est rarement prononcé. A l’inverse, le ‘d’ final du mot
‘sud’ est prononcé, et la consistance de l’association entre le
graphème ‘d’ et le phonème /d/ en finale de mot sera donc
faible. La présence de lettres silencieuses en finales des mots
doit être considérée différemment dans les analyses concernant
l'écriture (associations Ph-G) dans la mesure où un graphème
silencieux (par exemple, le 'd' de 'foulard', /fulaR/) ne peut
être prédit (à moins d'en connaître l'existence). La solution
adoptée dans Manulex_Morpho v.2 pour décrire les associations
Ph-G est de rassembler les lettres silencieuses finales avec le
dernier phonème prononcé. Par exemple, dans le sens de
l’écriture, le mot ‘renard’ a un /R/ qui code '-rd', tout comme
les mots 'gare' et 'terre' dans lesquels /R/ code '-re' ou
'-rre' (la prononciation de ‘renard’ devient ainsi compatible
avec les erreurs de production orthographique ‘renarre’, ou
‘renare’). Le principe de codage est similaire lorsque le
dernier graphème prononcé correspond à une voyelle: la finale de
'dans' et 'étang' est /ã/ pour '-ans' et '-ang'.
• Codage positionnel des associations. 1) Les flexions nominales
de genre, suivies ou non d'une flexion de nombre, sont codées
comme graphèmes finaux. 2) Similairement, les flexions verbales
sont codées comme graphèmes finaux, qu'elles soient ou non
suivies d'une flexion de genre ou nombre (par exemple, les
'-ées' des participes passés au féminin pluriel). Toutefois, les
flexions verbales en –ant, -it, -is, et –t des participes
présents et des participes passés sont codées comme internes
lorsque suivies d’une flexion de genre car cette dernière
modifie la prononciation de la consonne finale de la flexion
verbale (t, s). Cette exception est nécessaire afin de
préserver la consistance de prononciations des flexions verbales
(e. g.,' -ant' dans ‘glissant’ et dans ‘glissante’). 3) Les
autres graphèmes (consonantiques et vocaliques) non suivis d'une
voyelle (flexion nominale de genre 'e' ou non) mais suivis d'une
flexion nominale de nombre sont codés comme finaux (par exemple
'bavards' et 'buvards' avec 'd' comme graphème final; 'bouquets'
avec 'et' comme graphème final, 'caméras' avec 'a' comme
graphème final ). Ce choix assure le même traitement de ces
consonnes/voyelles selon que le nom soit au singulier ou au
pluriel.
• Consistance Ph-G (pour l'écriture) lorsque les graphèmes
silencieux correspondent à des flexions nominales (genre ou
nombre) ou à des supports de dérivation/flexion: les flexions
nominales sont indicées avec le code ‘3’ et les supports de
dérivation/flexion avec le code ‘6’ (voir onglet ‘codes
morphologiques’). La consistance des associations Ph-G pour les
flexions nominales est établie à 100% puisque la probabilité que
le mot termine par un ‘e’ est de 100% si le mot est fléchi en
genre, et la probabilité que le mot termine en ‘s’ ou ‘x’ est de
100% si le mot est fléchi en nombre. La consistance des supports
de dérivation/flexion qui correspondent à des consonnes
silencieuses (e. g., ‘t’ dans ‘aliment’, ‘d’ dans ‘grand’) est
également fixée à 100% puisque le graphème silencieux peut être
prédit à partir de la connaissance des mots dérivés
(‘alimentation’, ‘alimentaire’, ‘grandeur’) ou des mots fléchis
(‘grande’). La prédiction des graphèmes silencieux est
généralement simple pour les finales en –b (plomb), -d (grand),
-g (long, sang), -l (cristal, gentil), -p (camp), -t (absent)
même si la prononciation du graphème peut différer entre les
formes dérivées/fléchies (par exemple ‘g’ prononcé /g/ dans
‘longueur’ et /ʒ/ dans ‘longer’). Les graphèmes en –f sont,
quant à eux, transformés en /v/ lors des dérivations/flexions
(sportif – sportive, neuf – neuve), la présence d’un –v en
finale de mots étant illégale en français. Enfin, les finales en
–s (gros, gris, frais), en –x (choix, doux), et –z (riz) sont
associées aux phonèmes /s/, /z/, /S/ et les consistances Ph-G
sont donc estimées en fonction de la probabilité de chacun des
graphèmes silencieux à partir du phonème (e. g. le /z/ de
‘choisir’ est compatible avec ‘x’ dans le mot ‘choix’, mais un
‘s’ (*chois) ou un ‘z’ (*choiz) sont également possibles).
• Ajout, pour chaque mot, de l’association G-Ph ou Ph-G la moins
consistante, et de l’association la moins fréquente. A noter que
l’association la moins consistante n’est pas nécessairement la
moins fréquente, et vice-versa.
• Mesures de la théorie de l'information (surprise, entropie)
calculées sur les associations G-Ph et Ph-G. L'entropie mesure
le niveau d'incertitude associé à une distribution de
probabilités. Elle est mesurée en bit d’information (0 ou 1).
Dans le cas des associations G-Ph (ou Ph-G), l’entropie mesure
l’incertitude liée à la prononciation d’un graphème donné (ou à
l’orthographe associée à un phonème donné). Par exemple,
l’incertitude quant à la prononciation du graphème ‘v’ (comme
dans ‘ville’) est nulle puisque ‘v’ est toujours prononcé /v/.
Inversement, la prononciation du graphème ‘eu’ (neuf, deux) est
incertaine puisque ce graphème est parfois prononcé comme dans
le mot ‘deux’ et parfois comme dans le mot ‘neuf ‘. L’entropie
d’un graphème (ou phonème) est fonction à la fois du nombre de
prononciations possible du graphème (ou d’orthographes pour un
même phonème) et de la probabilité (consistance) de chacune des
associations G-Ph (ou Ph-G). La valeur minimale d’entropie est
égale à 0 (aucune incertitude) comme c’est le cas pour le
graphème ‘v’. La valeur maximale de l'entropie (incertitude
maximale) dépend du nombre d'alternatives et de la distribution
de probabilité des associations G-Ph ou Ph-G. Au plus la valeur
d’entropie est haute, au plus l’incertitude est donc élevée.
Ainsi, l’entropie du phonème /ɑ̃/ en finale de mot est très
élevée puisqu’une dizaine d’orthographes sont possibles (en, an,
aon, emps, ang…). Le calcul de l’entropie passe par le calcul de
la ‘surprise’ associée à chaque association G-Ph (ou Ph-G). Elle
correspond à une transformation logarithmique inverse (en base
2) de la probabilité (consistance) de chacune des associations.
La surprise est donc d’autant plus faible que l’association est
probable.
• Modifications et corrections de plusieurs codes phonologiques
et segmentations en graphèmes et phonèmes
• Suppression de la distinction entre les deux ‘a’ (/a/ de
‘patte’ et /ɑ/ de ‘pâte’) dans le calcul des consistances
• Les mots incluant le graphème ‘ai’ (‘maison’, ‘lainage’)
acceptent fréquemment la prononciation /E/ ou /e/. La
consistance de l’association G-Ph ne tient plus compte de cette
distinction.
• Introduction des différences entre les ‘e’ obligatoirement
prononcés, obligatoirement muets, ou optionnel (voir onglet
‘codes phonétiques’)
• La consistance G-Ph pour le graphème ‘e’ qui correspond à un
schwa optionnel (‘reste’, ‘perle’) est fixée à 100 puisque le
‘e’ peut ou non être prononcé.
• Dans le cas des associations Ph-G seulement, les quelques
rares consonnes muettes en position interne (exemple : ‘m’ dans
‘automne’, ‘p’ dans ‘baptême’) ne sont pas présentes dans le
signal de parole, et leur consistance Ph-G est donc de 0%
• Cas du ‘e’ suivi par deux consonnes identiques. Le codage,
dans le sens de la lecture a été uniformisé en indiquant le ‘e’
suivi de deux consonnes identiques comme .e[CC]. (avec CC pour
signaler 2 consonnes identiques). Le mot ‘femme’ est donc codé
comme ‘f.e[CC].mm.e’. Sa consistance basse résulte du fait que
‘e’ suivit d’une double consonne est généralement prononcé /e/
ou /E/. Toutefois, ceci n’est réalisée que lorsque le ‘e’ n’est
pas inclus dans un groupe codé morphologiquement (indice ‘6’ ;
support de dérivation/flexion) tel que dans ‘ancienne’ dont le
‘enn’ est codé ‘6enn’. Ce codage des ‘e[CC]’ n’est réalisé que
pour les associations G-Ph mais pas dans les associations Ph-G
puisque, en Français, rien ne signale la présence du doublet
dans le signal de parole.
• Cas des mots incluant –eill ou –eil non précédés de ‘u’ (
‘abeille’, ‘bienveillant’, ‘sommeil’). Le codage a été modifié
en regroupant en ‘eil’ ou ‘eill’. Dans ces groupes, 'il' et
‘ill’ sont toujours associés à la semi-voyelle /j/, jamais à la
consonne /l/.
• Afin d’éliminer quelques rares associations G-Ph ou Ph-G, les
noms propres sont exclus des analyses.
• Ajout de la structure phonologique Consonne-Voyelle et
identification des clusters consonantiques
• Depuis la ver.2.4, les valeurs par token sont calculées en
utilisant une transformation logarithmique de la fréquence des
mots, log10(fréquence+1).