Téléchargement
Les fichiers (format .xlsx) sont de deux types (descriptions détaillées de chacun d'eux plus bas):
1. Bases lexicales incluant l'ensemble des mots et leurs
caractéristiques (ver. 2.4.2). Le fichier ManuAll
inclut l'ensemble des entrées lexicales et le
fichier ManuLemme n'inclut que les formes orthographiques
rencontrées par l'enfant et correspondant aux lemmes (lexèmes).
Les statistiques grapho-phonologiques des mots sont estimées
indépendamment sur les deux corpus. Le fichier ManuLemme
permet donc de caractériser les caractéristiques
grapho-phonologiques des mots en excluant les formes fléchies
(genre, nombre, flexions verbales). Les mots qui n’apparaissent
dans les livres scolaires que sous une forme fléchie ne sont pas
pris en compte dans cette seconde analyse puisque la forme
simple n’est pas rencontrée par l’enfant.
Des filtres sont placés en haut des listes de mots pour
faciliter la sélection
2. Statistiques générales dérivées de l'analyse des mots.
Plusieurs fichiers sont disponibles:
• Consistance et fréquence des associations G-Ph, Ph-G, et des
rimes des mots. Les statistiques sont générées à partir de
l'ensemble des entrées lexicales dans le fichier ManuAll-Associations
et à partir des entrées lexicales correspondant à
des lemmes dans le fichier ManuLemme-Associations
. Les valeurs de consistance/fréquence des
associations décrites dans les fichiers peuvent être utilisées
pour caractériser les relations grapho-phonologiques de
logatomes ou de mots absents de la base lexicale.
• Autres statistiques orthographiques calculées sur l'ensemble
du corpus lexical de ManuAll. Ces statistiques, regroupées dans
le fichier ManuAll-OrthoStat
, portent sur a) la fréquence des lettres et b) la
fréquence des bigrames et des trigrammes. Ces données sont
identiques à celles de Manulex_Infra version 1.
Note:Google Sheets permet d’explorer les fichiers à partir de
votre Google Drive et sans devoir les télécharger sur votre
disque dur. Pour importer directement les fichiers dans votre
Google Drive, utilisez Chrome et l’extension ‘Enregister dans
Google Drive’ disponible sur le Chrome Web Store. Il suffira
ensuite d’un clic droit sur le lien du fichier pour
l’enregistrer dans votre Google Drive
DESCRIPTIONS DES FICHIERS
ManuAll
• Codes orthographique et phonologique des mots
• Catégorie grammaticale
• Nombre de lettres, phonèmes, graphèmes, syllabes
• Complexité graphémique (n de lettres / n de phonèmes)
• Syllabation (phonologique)
• Fréquence du mot au Grade 1 (CP), au Grade 2 (CE1), et du
Grade 1 au Grade 5 (cp-cm2) selon la base Manulex (valeurs U
tenant compte de la dispersion fréquentielle des mots dans les
manuels scolaires)
• Nombre d'homophones hétérographiques (e. g., port-porc-pore)
pour les adjectifs et substantifs au singulier
• Voisinage orthographique (index 'N-Count' et 'Levenshtein
OLD20')
• Fréquence moyenne des bigrammes (valeurs par type et par
token), et fréquence de bigrammes en fonction de la position
dans le mot (initiale, interne, finale)
• Segmentation G-Ph et segmentation Ph-G
• Rime phonologique et correspondance orthographique
• Fréquence et consistance des associations G-Ph (valeurs par
type et par token) en fonction de la position dans le mot
(initiale, interne, finale)
• Fréquence et consistance des associations Ph-G (valeurs par
type et par token) en fonction de la position dans le mot
(initiale, interne, finale)
• Associations G-Ph et Ph-G la moins fréquente, ou la moins
consistante dans le mot
• Consistance et fréquence des associations
orthographe-phonologie (sens de la lecture) ou
phonologie-orthographe (sens de l'écriture) portant sur la rime
phonologique des mots. Valeurs par type et token.
(note: les calculs par token exploitent la fréquence du mot
du Grade 1 au Grade 5)
ManuLemme
• Codes orthographique et phonologique des mots
• Catégorie grammaticale
• Nombre de lettres, phonèmes, graphèmes, syllabes
• Complexité graphémique (n de lettres / n de phonèmes)
• Syllabation (phonologique)
• Fréquence du mot au Grade 1 (CP), au Grade 2 (CE1), et du
Grade 1 au Grade 5 (cp-cm2) selon la base Manulex (valeurs U
tenant compte de la dispersion fréquentielle des mots dans les
manuels scolaires)
• Segmentation G-Ph et segmentation Ph-G
• Rime phonologique et correspondance orthographique
• Fréquence et consistance des associations G-Ph (valeurs par
type et par token) en fonction de la position dans le mot
(initiale, interne, finale)
• Fréquence et consistance des associations Ph-G (valeurs par
type et par token) en fonction de la position dans le mot
(initiale, interne, finale)
• Associations G-Ph et Ph-G la moins fréquente, ou la moins
consistante dans le mot
• Consistance et fréquence des associations
orthographe-phonologie (sens de la lecture) ou
phonologie-orthographe (sens de l'écriture) portant sur la rime
phonologique des mots. Valeurs par type et token.
(note: les calculs par token exploitent la fréquence du mot
du Grade 1 au Grade 5)
ManuAll-Associations et ManuLemme-Associations
• Associations G-Ph, Ph-G, rime (orthographe-phonologie,
phonologie-orthographe)
• Fréquence et consistance des associations (valeurs par Type et
par Token), en fonction de la position dans le mots (initiale,
interne, finale)
• Entropie et valeur de ‘surprise’ des associations (par type,
par token), en fonction de la position dans le mots (initiale,
interne, finale)