Modifications principales par rapport à la version 1
• Segmentations G-Ph et Ph-G distinctes. Dans la version 1 de Manulex_Infra,
la description des associations graphème-phonème a initialement
été pensée dans le sens de la lecture, de G à Ph. Les mêmes
associations étaient exploitées pour analyser les associations
entre phonème et graphème (sens de l’écriture). Toutefois, la
notion de consistance réfère, dans le cas des associations Ph-G
à la probabilité de produire un graphème particulier à partir du
phonème prononcé. Lorsque le graphème n'est pas prononcé
(graphème 'silencieux'), sa présence et son identité ne peuvent
être prédites (à moins de connaitre l'orthographe exacte du mot,
ou d'avoir la connaissance de la présence d'une lettre
silencieuse sans en connaitre nécessairement son identité). Les
descriptions des associations doivent donc être distinguées
selon que nous envisageons la lecture (G-Ph) et l’écriture
(Ph-G). Ceci est réalisé dans la version 2 (voir onglet
‘Comprendre Manulex_Infra').
• Ajout des analyses portant sur la consistance et la fréquence
des associations grapho-phonologiques sur l’unité de rime finale
des mots
• Mesures de la théorie de l'information (surprise, entropie)
calculées sur les associations G-Ph et Ph-G
• Ajout des analyses restreintes aux formes lexicales
correspondant aux lexèmes (lemmes), excluant donc les formes
fléchies
• Ajout, pour chaque mot, de l’association G-Ph ou Ph-G la moins
consistante, et la moins fréquente. A noter que l’association la
moins consistante n’est pas nécessairement la moins fréquente,
et vice-versa.
• Modifications et corrections de plusieurs codes phonologiques
et segmentations en graphèmes et phonèmes
• Suppression de la distinction entre les deux 'a' (/a/ de
‘patte’ et /ɑ/ de ‘pâte’) dans le calcul des consistances
• Les mots incluant le graphème ‘ai’ (‘maison’, ‘lainage’)
acceptent fréquemment la pronunciation /E/ ou /e/. La
consistance de l’association G-Ph ne tient plus compte de cette
distinction.
• Introduction des différences entre le 'e' obligatoirement
prononcé, obligatoirement muet, ou optionnel (voir onglet ‘codes
phonétiques’)
• Modifications de la segmentation syllabique des mots en accord
avec le codage des 'e' muets ou non muets.
• La consistance G-Ph pour le graphème 'e' schwa optionnel
(‘gare’, ‘parle’) est fixée à 100 puisque le ‘e’ peut ou non
être prononcé.
• Dans le cas des associations Ph-G seulement, les quelques
rares consonnes silencieuses en position interne (exemple : ‘m’
dans ‘automne’, ‘p’ dans ‘baptême’) ne sont pas présentes dans
le signal de parole, et leur consistance Ph-G est donc de 0%
• Cas du ‘e’ suivi de deux consonnes identiques. Dans la version
1 de Manulex_infra, les suites orthographiques ‘emm’ et
‘enn’ étaient codées comme groupes graphémiques alors que, pour
les autres doublets (rr, tt), le 'e' était codé séparément
des consonnes qui suivent (par exemple ‘e.rr’ dans ‘terre’). Ce
codage particulier des ‘emm’ et ‘enn’ répondait au principe de
segmentation visant à mettre en évidence les inconsistances dans
la prononciation des mots, ces deux suites orthographiques étant
prononcées différemment dans ‘antenne’ et ‘flemme’ que dans
‘solennel’ et ‘patiemment’. Toutefois, compte tenu du nombre
élevé d’adverbes en ‘emment’ partageant l’association ‘emm’-/am/
(patiemment, évidemment, récemment), un mot tel que ‘femme’
apparaissait comme consistant. Le codage, dans le sens de la
lecture a été uniformisé en renseignant le ‘e’ suivit de deux
consonnes identiques comme .e[CC]. (avec CC pour signaler 2
consonnes identiques). Le mot ‘femme’ est donc maintenant codé
comme ‘f.e[CC].mm.e’. Sa consistance basse résulte du fait que
‘e’ suivit d’un doublet est généralement prononcé /e/ ou /E/. Ce
codage des ‘e[CC]’ n’est réalisé que pour les associations G-Ph
mais pas dans les associations Ph-G puisque, en Français,
rien ne signale la présence du doublet dans le signal de parole.
Ce codage des associations G-Ph avec ‘e[CC]’ s’applique à tous
les mots afin de faire ressortir les inconsistances, donc aussi
à des mots tel que ‘ennui’ codé ‘e[CC]-@.nn-n.u-8.i-i’.
• Cas des mots incluant –eill ou –eil non précédés de ‘u’ (
‘abeille’, ‘bienveillant’, ‘sommeil’). Le codage a été modifié
en regroupant en ‘eil’ ou ‘eill’. Dans ces groupes, 'il' et
‘ill’ sont toujours associés à la semi-voyelle /j/, jamais à la
consonne /l/.
• Les finales des verbes en –ent sont, dans le sens de la
lecture (G-Ph) segmentés ‘en.t’ dans la version 2 de Manulex_Infra.
Cette segmentation est comparable à celle des formes en ‘-ant’,
‘-ont’, ‘-ons’, …, (an .t, on.t, on.s).
• Les valeurs par token sont calculées en utilisant une
transformation logarithmique de la fréquence des mots,
log10(fréquence+1). Depuis ver. 2.4.
• Afin d’éliminer quelques rares associations G-Ph ou Ph-G, les
noms propres sont exclus des analyses.