Comprendre Manulex_infra

Consistance et fréquence des associations grapho-phonologiques. L'ambigüité du codage phonologique à partir de l’orthographe des mots, et l'ambigüité du codage orthographique à partir de l’information phonologique, sont généralement estimées par un indice de consistance. Dans les écritures alphabétiques, la consistance des associations graphème-phonème (G-Ph) et phonème-graphème (Ph-G) est un facteur critique dans l'apprentissage de la lecture et de l'écriture. Le terme graphème est utilisé ici pour désigner une lettre ou un groupe de lettres qui correspond à un phonème; le français possédant des graphèmes de plusieurs lettres tels que 'ou', 'an', 'un', 'in', 'eu', 'ch' et 'gn'. L'indice de consistance G-Ph est égal à la fréquence avec laquelle une association G-Ph particulière est rencontrée dans les mots, divisée par la fréquence totale du graphème, quelle que soit sa prononciation. La consistance d'une association G-Ph reflète donc la probabilité d'associer un phonème particulier à un graphème donné. Par exemple, l'indice de consistance G-Ph de l'association 'ch'->/S/ (comme dans le mot 'chat' /Sa/) est obtenu en divisant la fréquence d'occurrence de l'association 'ch'->/S/ par la fréquence du graphème 'ch', quelle que soit sa prononciation (y compris /S/, mais aussi /k/ par exemple, comme dans 'choral' /koRal/). L'indice de consistance G-Ph est ensuite multiplié par 100. Sa valeur maximale est de 100. De même, l'indice de consistance Ph-G est égal à la fréquence d'apparition d'une correspondance phonème-graphème particulière, divisée par la fréquence totale du phonème multipliée par 100, quelle que soit l'orthographe du phonème.

La consistance peut varier considérablement en fonction de la position sérielle du graphème ou du phonème dans le mot. En particulier, en raison de l'évolution de la morphologie flexionnelle et dérivationnelle du français, les terminaisons de mots sont souvent silencieuses, ce qui rend l'orthographe moins transparente. La fréquence et la consistance des correspondances G-Ph et Ph-G sont donc estimées en fonction de la position sérielle relative dans le mot: initiale (premier graphème/phonème), finale (dernier graphème/phonème), et intermédiaire (graphèmes/phonèmes au milieu des mots). Manulex_Infra fournit également deux types de consistance et de fréquence : l'une lexicale (par type) et l'autre textuelle (par token). La fréquence lexicale reflète le nombre de mots différents dans la base de données qui incluent les correspondances G-Ph et Ph-G, chaque mot n'étant compté qu'une seule fois. La fréquence textuelle reflète le nombre de mots (différents ou identiques) dans les textes qui incluent la correspondance d'intérêt, et chaque mot est compté aussi souvent qu'il apparait dans le corpus. Ainsi, les valeurs de fréquence et de consistance des correspondances G-Ph et Ph-G sont indépendantes de la fréquence d'occurrence des mots dans les textes (mots rares ou fréquents) dans les statistiques par type, tandis que les valeurs de fréquence et de consistance sont pondérées par la fréquence d'occurrence des mots dans les statistiques par token.

La segmentation graphémique des mots français ne pose généralement pas de problème, mais des choix de segmentation ont dû être faits dans certains cas. Dans la mesure du possible, les chaines orthographiques ont été segmentées de manière à ce que chaque segment orthographique corresponde à un seul phonème. Nos choix ont été régis par un second principe selon lequel la segmentation doit mettre en évidence les inconsistances dans la prononciation/écriture des mots.

La présence de lettres silencieuses en finales de nombreux mots conduit à envisager différemment l’analyse des associations G-Ph et des associations Ph-G. Par exemple, l’association G-Ph finale du mot ‘nid’ terminant par un ‘d’ muet est très consistante car le ‘d’ final des mots est rarement prononcé. A l’inverse, le ‘d’ final du mot ‘sud’ est prononcé, et la consistance de l’association entre le graphème ‘d’ et le phonème /d/ en finale de mot est donc faible. La présence de lettres muettes en finales des mots doit être considérée différemment dans l’analyse des associations entre phonèmes et graphèmes (Ph-G ; sens de l’écriture) dans la mesure où le graphème silencieux (e.g., 'd' dans 'foulard', /fulaR/) ne peut être prédit (à moins d'en connaitre la présence). La solution adoptée dans Manulex_Infra v.2 pour décrire les associations Ph-G est de rassembler les lettres muettes finales avec le dernier phonème prononcé. Par exemple, dans le sens de l’écriture, le mot ‘renard’ a un /R/ qui code '-rd', tout comme les mots 'gare' et 'terre' dans lesquels /R/ code '-re' ou '-rre' (la prononciation de ‘renard’ devient ainsi compatible avec les erreurs de production orthographique ‘renarre’, ou ‘renare’). Le principe de codage est similaire lorsque le dernier graphème prononcé correspond à une voyelle: la finale de 'dans' et 'étang' est /ã/ pour '-ans' et '-ang'.

Rime finale des mots. Les relations grapho-phonologiques pour les finales de mots sont également envisagées dans le cadre contextuel plus large correspondant à la rime phonologique finale. Ces analyses additionnelles répondent aussi à l’observation, qu’en production orthographique, les choix orthographiques semblent partiellement fonction du contexte de la rime. Dans ce cas, un graphème silencieux tel que ‘d’ dans le mot ‘renard’ n’est plus intégré dans l’association Ph-G /R/-‘rd’ mais il constitue un élément de la rime finale du mot /aR/-‘ard’. La rime phonologique finale des mots, telle que considérée dans la version 2 de Manulex_Infra, correspond à la dernière voyelle du mot (différente d’un schwa), des éventuelles semi-voyelles la précédant, et des éventuelles semi-voyelles, consonnes, ou schwa qui la suivent. Par exemple ‘ion-/jɔ͂/’ dans ‘nation’, ‘illard-/jaR/’ dans ‘billard’. La semi-voyelle précédant la voyelle est considérée comme faisant partie de la rime car la diversité des orthographes possibles est fonction de la prise en compte ou non de la semi-voyelle. Par exemple, sur les substantifs, /ɔ͂/ (‘on’) final peut s’orthographier de manière multiple (-on, -ons, -ond, -om, -ont, -onc, -omb, -ong), alors que dans les finales en /jɔ͂/, le ‘on’ n’est pas suivit de consonnes muettes (-ion, -yon, -illon dans 'nation', 'rayon', 'bouillon'). De même, la rime /aR/ peut être orthographiée de multiples façons (-ard, -art, -are, -ar, -arre, -ars) mais appariée avec /w/, /waR/ ne peut être orthographié que -oir ou -oire.

Estimer le degré de difficulté d'un mot nécessite de considérer sa consistance et sa fréquence au niveau de sa rime finale, mais aussi au niveau des correspondances G-Ph ou Ph-G. Certains mots peuvent être très consistants au niveau de la rime mais très inconsistants au niveau de l'association G-Ph ou Ph-G. Par exemple, le mot 'femme' est consistant au niveau de la rime mais inconsistant au niveau des associations G-Ph ou Ph-G.

Analyses incluant ou non les formes fléchies nominales de genre et de nombre, ainsi que les flexions verbales. Les relations grapho-phonologiques (consistance et fréquence G-Ph, Ph-G, rime) sont analysées soit en incluant toutes les formes orthograhiques rencontrées dans les manuels scolaires, soit en ne prenant en compte que les formes orthographiques qui correspondent au lemme (ou lexème) associé. Cette seconde analyse permet une description des associations grapho-phonologiques en excluant les variations liées aux flexions nominales de genre (masculin, féminin) et de nombre (singulier, pluriel), ainsi qu’aux flexions verbales (personne, temps, mode). Notez que les mots qui n’apparaissent dans les livres scolaires que sous une forme fléchie ne sont pas pris en compte dans cette seconde analyse puisque la forme simple n’est pas rencontrée par l’enfant.

Autres variables codées dans Manulex_Infra v.2. La base de données Manulex_Infra v.2 fournit un ensemble additionnel d’information sur les entrées lexicales (une description plus détaillée est donnée sous l’onglet ‘téléchargement’)
• Association G-Ph ou Ph-G la moins consistante ou la moins fréquente du mot (l’association est fournie ainsi que les valeurs de consistance ou de fréquence)
• Longueur orthographique, phonologique, graphémique, et syllabique du mot
• Fréquence des mots dans les manuels du grade 1, du grade 2, et du grade 1 à 5 selon la base Manulex
• Segmentation syllabique du code phonologique
• Segmentation G-Ph et Ph-G, rime phonologique (et son correspondant orthographique)
• Voisinage orthographique du mot selon l’index ‘n-count’ ou l’index ‘distance Levenshtein’. L’index n-count comptabilise le nombre de mots pouvant être générés à partir d’un mot cible en substituant une seule lettre par une autre lettre (e. g., ‘rire’ a comme voisins orthographiques ‘lire’, ‘rare’, et ‘rime’). Plus la valeur est haute, plus le voisinage orthographique est dense. La distance Levenhstein (OLD20) correspond au nombre moyen de modifications orthographiques à apporter à un mot (substitution de lettre, transposition de lettres, suppression ou addition de lettres) afin de générer ses 20 plus proches voisins orthographiques. Moins la valeur est haute, plus le voisinage orthographique est dense.
• Nombre d’homophones non homographes ('port-porc-pore') pour les adjectifs et les noms.
• Fréquence moyenne des bigrammes (groupes de deux lettres adjacentes)

Manulex-Infra

Comprendre Manulex_infra