English


Les mots écrits à l'école élémentaire -
Caractéristiques orthographiques, grapho-phonologiques, et morphologiques







Manulex-Infra



Téléchargement

Les fichiers (format .xlsx) sont de deux types (descriptions détaillées de chacun d'eux plus bas):

1. Bases lexicales incluant l'ensemble des mots et leurs caractéristiques (ver. 2.4). Le fichier ManuAll inclut l'ensemble des entrées lexicales et le fichier ManuLemme n'inclut que les formes orthographiques rencontrées par l'enfant et correspondant aux lemmes (lexèmes). Les statistiques grapho-phonologiques des mots sont estimées indépendamment sur les deux corpus. Le fichier ManuLemme permet donc de caractériser les caractéristiques grapho-phonologiques des mots en excluant les formes fléchies (genre, nombre, flexions verbales). Les mots qui n’apparaissent dans les livres scolaires que sous une forme fléchie ne sont pas pris en compte dans cette seconde analyse puisque la forme simple n’est pas rencontrée par l’enfant.

Des filtres sont placés en haut des listes de mots pour faciliter la sélection

2. Statistiques générales dérivées de l'analyse des mots. Plusieurs fichiers sont disponibles:

• Consistance et fréquence des associations G-Ph, Ph-G, et des rimes des mots. Les statistiques sont générées à partir de l'ensemble des entrées lexicales dans le fichier ManuAll-Associations et à partir des entrées lexicales correspondant à des lemmes dans le fichier ManuLemme-Associations . Les valeurs de consistance/fréquence des associations décrites dans les fichiers peuvent être utilisées pour caractériser les relations grapho-phonologiques de logatomes ou de mots absents de la base lexicale.

• Autres statistiques orthographiques calculées sur l'ensemble du corpus lexical de ManuAll. Ces statistiques, regroupées dans le fichier ManuAll-OrthoStat , portent sur a) la fréquence des lettres et b) la fréquence des bigrames et des trigrammes. Ces données sont identiques à celles de Manulex_Infra version 1.

Note:Google Sheets permet d’explorer les fichiers à partir de votre Google Drive et sans devoir les télécharger sur votre disque dur. Pour importer directement les fichiers dans votre Google Drive, utilisez Chrome et l’extension ‘Enregister dans Google Drive’ disponible sur le Chrome Web Store. Il suffira ensuite d’un clic droit sur le lien du fichier pour l’enregistrer dans votre Google Drive


DESCRIPTIONS DES FICHIERS

ManuAll
• Codes orthographique et phonologique des mots
• Catégorie grammaticale
• Nombre de lettres, phonèmes, graphèmes, syllabes
• Complexité graphémique (n de lettres / n de phonèmes)
• Syllabation (phonologique)
• Fréquence du mot au Grade 1 (CP), au Grade 2 (CE1), et du Grade 1 au Grade 5 (cp-cm2) selon la base Manulex (valeurs U tenant compte de la dispersion fréquentielle des mots dans les manuels scolaires)
• Nombre d'homophones hétérographiques (e. g., port-porc-pore) pour les adjectifs et substantifs au singulier
• Voisinage orthographique (index 'N-Count' et 'Levenshtein OLD20')
• Fréquence moyenne des bigrammes (valeurs par type et par token), et fréquence de bigrammes en fonction de la position dans le mot (initiale, interne, finale)
• Segmentation G-Ph et segmentation Ph-G
• Rime phonologique et correspondance orthographique
• Fréquence et consistance des associations G-Ph (valeurs par type et par token) en fonction de la position dans le mot (initiale, interne, finale)
• Fréquence et consistance des associations Ph-G (valeurs par type et par token) en fonction de la position dans le mot (initiale, interne, finale)
• Associations G-Ph et Ph-G la moins fréquente, ou la moins consistante dans le mot
• Consistance et fréquence des associations orthographe-phonologie (sens de la lecture) ou phonologie-orthographe (sens de l'écriture) portant sur la rime phonologique des mots. Valeurs par type et token.

(note: les calculs par token exploitent la fréquence du mot du Grade 1 au Grade 5)

ManuLemme
• Codes orthographique et phonologique des mots
• Catégorie grammaticale
• Nombre de lettres, phonèmes, graphèmes, syllabes
• Complexité graphémique (n de lettres / n de phonèmes)
• Syllabation (phonologique)
• Fréquence du mot au Grade 1 (CP), au Grade 2 (CE1), et du Grade 1 au Grade 5 (cp-cm2) selon la base Manulex (valeurs U tenant compte de la dispersion fréquentielle des mots dans les manuels scolaires)
• Segmentation G-Ph et segmentation Ph-G
• Rime phonologique et correspondance orthographique
• Fréquence et consistance des associations G-Ph (valeurs par type et par token) en fonction de la position dans le mot (initiale, interne, finale)
• Fréquence et consistance des associations Ph-G (valeurs par type et par token) en fonction de la position dans le mot (initiale, interne, finale)
• Associations G-Ph et Ph-G la moins fréquente, ou la moins consistante dans le mot
• Gain informationnel (calculé à partir de l’entropie) des associations G-Ph et Ph-G (par type, par token) en fonction de la position dans le mot (initiale, interne, finale)
• Consistance et fréquence des associations orthographe-phonologie (sens de la lecture) ou phonologie-orthographe (sens de l'écriture) portant sur la rime phonologique des mots. Valeurs par type et token.

(note: les calculs par token exploitent la fréquence du mot du Grade 1 au Grade 5)

ManuAll-Associations et ManuLemme-Associations
• Associations G-Ph, Ph-G, rime (orthographe-phonologie, phonologie-orthographe)
• Fréquence et consistance des associations (valeurs par Type et par Token), en fonction de la position dans le mots (initiale, interne, finale)
• Entropie et valeur de ‘surprise’ des associations (par type, par token), en fonction de la position dans le mots (initiale, interne, finale)