Modifications principales par rapport à la version 1

• Segmentations G-Ph et Ph-G distinctes. Dans la version 1 de Manulex_Infra, la description des associations graphème-phonème a initialement été pensée dans le sens de la lecture, de G à Ph. Les mêmes associations étaient exploitées pour analyser les associations entre phonème et graphème (sens de l’écriture). Toutefois, la notion de consistance réfère, dans le cas des associations Ph-G à la probabilité de produire un graphème particulier à partir du phonème prononcé. Lorsque le graphème n'est pas prononcé (graphème 'silencieux'), sa présence et son identité ne peuvent être prédites (à moins de connaitre l'orthographe exacte du mot, ou d'avoir la connaissance de la présence d'une lettre silencieuse sans en connaitre nécessairement son identité). Les descriptions des associations doivent donc être distinguées selon que nous envisageons la lecture (G-Ph) et l’écriture (Ph-G). Ceci est réalisé dans la version 2 (voir onglet ‘Comprendre Manulex_Infra').

• Ajout des analyses portant sur la consistance et la fréquence des associations grapho-phonologiques sur l’unité de rime finale des mots

• Mesures de la théorie de l'information (surprise, entropie) calculées sur les associations G-Ph et Ph-G

• Ajout des analyses restreintes aux formes lexicales correspondant aux lexèmes (lemmes), excluant donc les formes fléchies

• Ajout, pour chaque mot, de l’association G-Ph ou Ph-G la moins consistante, et la moins fréquente. A noter que l’association la moins consistante n’est pas nécessairement la moins fréquente, et vice-versa.

• Modifications et corrections de plusieurs codes phonologiques et segmentations en graphèmes et phonèmes

• Suppression de la distinction entre les deux 'a' (/a/ de ‘patte’ et /ɑ/ de ‘pâte’) dans le calcul des consistances

• Les mots incluant le graphème ‘ai’ (‘maison’, ‘lainage’) acceptent fréquemment la pronunciation /E/ ou /e/. La consistance de l’association G-Ph ne tient plus compte de cette distinction.

• Introduction des différences entre le 'e' obligatoirement prononcé, obligatoirement muet, ou optionnel (voir onglet ‘codes phonétiques’)

• Modifications de la segmentation syllabique des mots en accord avec le codage des 'e' muets ou non muets.

• La consistance G-Ph pour le graphème 'e' schwa optionnel (‘gare’, ‘parle’) est fixée à 100 puisque le ‘e’ peut ou non être prononcé.

• Dans le cas des associations Ph-G seulement, les quelques rares consonnes silencieuses en position interne (exemple : ‘m’ dans ‘automne’, ‘p’ dans ‘baptême’) ne sont pas présentes dans le signal de parole, et leur consistance Ph-G est donc de 0%

• Cas du ‘e’ suivi de deux consonnes identiques. Dans la version 1 de Manulex_infra, les suites orthographiques ‘emm’ et ‘enn’ étaient codées comme groupes graphémiques alors que, pour les autres doublets (rr, tt), le 'e' était codé séparément des consonnes qui suivent (par exemple ‘e.rr’ dans ‘terre’). Ce codage particulier des ‘emm’ et ‘enn’ répondait au principe de segmentation visant à mettre en évidence les inconsistances dans la prononciation des mots, ces deux suites orthographiques étant prononcées différemment dans ‘antenne’ et ‘flemme’ que dans ‘solennel’ et ‘patiemment’. Toutefois, compte tenu du nombre élevé d’adverbes en ‘emment’ partageant l’association ‘emm’-/am/ (patiemment, évidemment, récemment), un mot tel que ‘femme’ apparaissait comme consistant. Le codage, dans le sens de la lecture a été uniformisé en renseignant le ‘e’ suivit de deux consonnes identiques comme .e[CC]. (avec CC pour signaler 2 consonnes identiques). Le mot ‘femme’ est donc maintenant codé comme ‘f.e[CC].mm.e’. Sa consistance basse résulte du fait que ‘e’ suivit d’un doublet est généralement prononcé /e/ ou /E/. Ce codage des ‘e[CC]’ n’est réalisé que pour les associations G-Ph mais pas dans les associations Ph-G puisque, en Français, rien ne signale la présence du doublet dans le signal de parole. Ce codage des associations G-Ph avec ‘e[CC]’ s’applique à tous les mots afin de faire ressortir les inconsistances, donc aussi à des mots tel que ‘ennui’ codé ‘e[CC]-@.nn-n.u-8.i-i’.

• Cas des mots incluant –eill ou –eil non précédés de ‘u’ ( ‘abeille’, ‘bienveillant’, ‘sommeil’). Le codage a été modifié en regroupant en ‘eil’ ou ‘eill’. Dans ces groupes, 'il' et ‘ill’ sont toujours associés à la semi-voyelle /j/, jamais à la consonne /l/.

• Les finales des verbes en –ent sont, dans le sens de la lecture (G-Ph) segmentés ‘en.t’ dans la version 2 de Manulex_Infra. Cette segmentation est comparable à celle des formes en ‘-ant’, ‘-ont’, ‘-ons’, …, (an .t, on.t, on.s).

• Les valeurs par token sont calculées en utilisant une transformation logarithmique de la fréquence des mots, log10(fréquence+1). Depuis ver. 2.4.

• Afin d’éliminer quelques rares associations G-Ph ou Ph-G, les noms propres sont exclus des analyses.

Manulex-Infra

Modifications principales par rapport à la version 1