Modifications principales par rapport à la version 1 de Manulex Morpho
Comme pour la base Manulex-Infra, la version 2 de
                Manulex-Morpho apporte des modifications majeures par rapport à
                la version 1. Une large partie résulte (a) de l’utilisation de
                segmentations G-Ph et Ph-G distinctes, (b) de la manière dont le
                codage positionnel des associations est réalisé (association
                initiale, finale ou interne du mot), et (c) du codage de la
                consistance Ph-G lorsque les graphèmes muets correspondent à des
                flexions nominales (genre ou nombre), ainsi qu’à des supports de
                dérivation/flexion de genre (par exemple, le ‘t’ de ‘petit’ vs.
                ‘petite’, le ‘d’ de ‘bavard’ vs. ‘bavarde’); voir onglet ‘codes
                morphologiques’.
                
                • Segmentations G-Ph (lecture) et Ph-G (écriture) distinctes.
                Dans la version 1 de Manulex_Morpho, la description de ces
                associations a initialement été pensée dans le sens de la
                lecture, du graphème au phonème. Les mêmes associations étaient
                exploitées pour analyser celles entre phonème et graphème (sens
                de l’écriture). Ce choix engendre des problèmes d'estimation des
                consistances surtout –mais pas exclusivement- lorsque les mots
                incluent des lettres silencieuses en finale. Par exemple, pour
                la lecture, l’association G-Ph finale du mot ‘nid’ qui se
                termine par un ‘d’ muet sera très consistante car le ‘d’ final
                des mots est rarement prononcé. A l’inverse, le ‘d’ final du mot
                ‘sud’ est prononcé, et la consistance de l’association entre le
                graphème ‘d’ et le phonème /d/ en finale de mot sera donc
                faible. La présence de lettres silencieuses en finales des mots
                doit être considérée différemment dans les analyses concernant
                l'écriture (associations Ph-G) dans la mesure où un graphème
                silencieux (par exemple, le 'd' de 'foulard', /fulaR/) ne peut
                être prédit (à moins d'en connaître l'existence). La solution
                adoptée dans Manulex_Morpho v.2 pour décrire les associations
                Ph-G est de rassembler les lettres silencieuses finales avec le
                dernier phonème prononcé. Par exemple, dans le sens de
                l’écriture, le mot ‘renard’ a un /R/ qui code '-rd', tout comme
                les mots 'gare' et 'terre' dans lesquels /R/ code '-re' ou
                '-rre' (la prononciation de ‘renard’ devient ainsi compatible
                avec les erreurs de production orthographique ‘renarre’, ou
                ‘renare’). Le principe de codage est similaire lorsque le
                dernier graphème prononcé correspond à une voyelle: la finale de
                'dans' et 'étang' est /ã/ pour '-ans' et '-ang'. 
                
                • Codage positionnel des associations. 1) Les flexions nominales
                de genre, suivies ou non d'une flexion de nombre, sont codées
                comme graphèmes finaux. 2) Similairement, les flexions verbales
                sont codées comme graphèmes finaux, qu'elles soient ou non
                suivies d'une flexion de genre ou nombre (par exemple, les
                '-ées' des participes passés au féminin pluriel). Toutefois, les
                flexions verbales en –ant, -it, -is, et –t des participes
                présents et des participes passés sont codées comme internes
                lorsque suivies d’une flexion de genre car cette dernière
                modifie la prononciation de la consonne finale de la flexion
                verbale (t, s).  Cette exception est nécessaire afin de
                préserver la consistance de prononciations des flexions verbales
                (e. g.,' -ant' dans ‘glissant’ et dans ‘glissante’). 3) Les
                autres graphèmes (consonantiques et vocaliques) non suivis d'une
                voyelle (flexion nominale de genre 'e' ou non) mais suivis d'une
                flexion nominale de nombre sont codés comme finaux (par exemple
                'bavards' et 'buvards' avec 'd' comme graphème final; 'bouquets'
                avec 'et' comme graphème final, 'caméras' avec 'a' comme
                graphème final ). Ce choix assure le même traitement de ces
                consonnes/voyelles selon que le nom soit au singulier ou au
                pluriel. 
                
                • Consistance Ph-G (pour l'écriture) lorsque les graphèmes
                silencieux correspondent à des flexions nominales (genre ou
                nombre) ou à des supports de dérivation/flexion: les flexions
                nominales sont indicées avec le code ‘3’ et les supports de
                dérivation/flexion avec le code ‘6’ (voir onglet ‘codes
                morphologiques’). La consistance des associations Ph-G pour les
                flexions nominales est établie à 100% puisque la probabilité que
                le mot termine par un ‘e’ est de 100% si le mot est fléchi en
                genre, et la probabilité que le mot termine en ‘s’ ou ‘x’ est de
                100% si le mot est fléchi en nombre. La consistance des supports
                de dérivation/flexion qui correspondent à des consonnes
                silencieuses (e. g., ‘t’ dans ‘aliment’, ‘d’ dans ‘grand’) est
                également fixée à 100% puisque le graphème silencieux peut être
                prédit à partir de la connaissance des mots dérivés
                (‘alimentation’, ‘alimentaire’, ‘grandeur’) ou des mots fléchis
                (‘grande’). La prédiction des graphèmes silencieux est
                généralement simple pour les finales en –b (plomb), -d (grand),
                -g (long, sang), -l (cristal, gentil), -p (camp), -t (absent)
                même si la prononciation du graphème peut différer entre les
                formes dérivées/fléchies (par exemple ‘g’ prononcé /g/ dans
                ‘longueur’ et /ʒ/ dans ‘longer’). Les graphèmes en –f sont,
                quant à eux, transformés en /v/ lors des dérivations/flexions
                (sportif – sportive, neuf – neuve), la présence d’un –v en
                finale de mots étant illégale en français. Enfin, les finales en
                –s (gros, gris, frais), en –x (choix, doux), et –z (riz) sont
                associées aux phonèmes /s/, /z/, /S/ et les consistances Ph-G
                sont donc estimées en fonction de la probabilité de chacun des
                graphèmes silencieux à partir du phonème (e. g. le /z/ de
                ‘choisir’ est compatible avec ‘x’ dans le mot ‘choix’, mais un
                ‘s’ (*chois) ou un ‘z’ (*choiz) sont également possibles). 
                
                • Ajout, pour chaque mot, de l’association G-Ph ou Ph-G la moins
                consistante, et de l’association la moins fréquente. A noter que
                l’association la moins consistante n’est pas nécessairement la
                moins fréquente, et vice-versa. 
                
                • Mesures de la théorie de l'information (surprise, entropie)
                calculées sur les associations G-Ph et Ph-G. L'entropie mesure
                le niveau d'incertitude associé à une distribution de
                probabilités. Elle est mesurée en bit d’information (0 ou 1).
                Dans le cas des associations G-Ph (ou Ph-G), l’entropie mesure
                l’incertitude liée à la prononciation d’un graphème donné (ou à
                l’orthographe associée à un phonème donné). Par exemple,
                l’incertitude quant à la prononciation du graphème ‘v’ (comme
                dans ‘ville’) est nulle puisque ‘v’ est toujours prononcé /v/.
                Inversement, la prononciation du graphème ‘eu’ (neuf, deux) est
                incertaine puisque ce graphème est parfois prononcé comme dans
                le mot ‘deux’ et parfois comme dans le mot ‘neuf ‘. L’entropie
                d’un graphème (ou phonème) est fonction à la fois du nombre de
                prononciations possible du graphème (ou d’orthographes pour un
                même phonème) et de la probabilité (consistance) de chacune des
                associations G-Ph (ou Ph-G). La valeur minimale d’entropie est
                égale à 0 (aucune incertitude) comme c’est le cas pour le
                graphème ‘v’. La valeur maximale de l'entropie (incertitude
                maximale) dépend du nombre d'alternatives et de la distribution
                de probabilité des associations G-Ph ou Ph-G. Au plus la valeur
                d’entropie est haute, au plus l’incertitude est donc élevée.
                Ainsi, l’entropie du phonème /ɑ̃/ en finale de mot est très
                élevée puisqu’une dizaine d’orthographes sont possibles (en, an,
                aon, emps, ang…). Le calcul de l’entropie passe par le calcul de
                la ‘surprise’ associée à chaque association G-Ph (ou Ph-G). Elle
                correspond à une transformation logarithmique inverse (en base
                2) de la probabilité (consistance) de chacune des associations.
                La surprise est donc d’autant plus faible que l’association est
                probable. 
                
                • Modifications et corrections de plusieurs codes phonologiques
                et segmentations en graphèmes et phonèmes
                
                • Suppression de la distinction entre les deux ‘a’ (/a/ de
                ‘patte’ et /ɑ/ de ‘pâte’) dans le calcul des consistances
                
                • Les mots incluant le graphème ‘ai’ (‘maison’, ‘lainage’)
                acceptent fréquemment la prononciation /E/ ou /e/. La
                consistance de l’association G-Ph ne tient plus compte de cette
                distinction. 
                
                • Introduction des différences entre les ‘e’ obligatoirement
                prononcés, obligatoirement muets, ou optionnel (voir onglet
                ‘codes phonétiques’) 
                
                • La consistance G-Ph pour le graphème ‘e’ qui correspond à un
                schwa optionnel (‘reste’, ‘perle’) est fixée à 100 puisque le
                ‘e’ peut ou non être prononcé. 
                
                • Dans le cas des associations Ph-G seulement, les quelques
                rares consonnes muettes en position interne (exemple : ‘m’ dans
                ‘automne’, ‘p’ dans ‘baptême’) ne sont pas présentes dans le
                signal de parole, et leur consistance Ph-G est donc de 0%
                
                • Cas du ‘e’ suivi par deux consonnes identiques. Le codage,
                dans le sens de la lecture a été uniformisé en indiquant le ‘e’
                suivi de deux consonnes identiques comme .e[CC]. (avec CC pour
                signaler 2 consonnes identiques). Le mot ‘femme’ est donc codé
                comme ‘f.e[CC].mm.e’. Sa consistance basse résulte du fait que
                ‘e’ suivit d’une double consonne est généralement prononcé /e/
                ou /E/. Toutefois, ceci n’est réalisée que lorsque le ‘e’ n’est
                pas inclus dans un groupe codé morphologiquement (indice ‘6’ ;
                support de dérivation/flexion) tel que dans ‘ancienne’ dont le
                ‘enn’ est codé ‘6enn’. Ce codage des ‘e[CC]’ n’est réalisé que
                pour les associations G-Ph mais pas dans les associations Ph-G
                puisque, en Français, rien ne signale la présence du doublet
                dans le signal de parole. 
                
                • Cas des mots incluant –eill ou –eil non précédés de ‘u’ (
                ‘abeille’, ‘bienveillant’, ‘sommeil’). Le codage a été modifié
                en regroupant en ‘eil’ ou ‘eill’. Dans ces groupes, 'il' et
                ‘ill’ sont toujours associés à la semi-voyelle /j/, jamais à la
                consonne /l/. 
                
                • Afin d’éliminer quelques rares associations G-Ph ou Ph-G, les
                noms propres sont exclus des analyses. 
                
                • Ajout de la structure phonologique Consonne-Voyelle et
                identification des clusters consonantiques
                
                • Depuis la ver.2.4, les valeurs par token sont calculées en
                utilisant une transformation logarithmique de la fréquence des
                mots, log10(fréquence+1).