English


Les mots écrits à l'école élémentaire -
Caractéristiques orthographiques, grapho-phonologiques, et morphologiques






Manulex_Infra et Manulex_Morpho sont deux bases de données décrivant les caractéristiques orthographiques, grapho-phonologiques, et morphologiques du vocabulaire écrit rencontré par les enfants de l'école élémentaire française (Peereman, Lété, & Sprenger-Charolles, 2007; Peereman, Sprenger-Charolles, & Messaoud-Galusi, 2013). Ces deux bases ont été créées afin d'aider les chercheurs pour leurs études empiriques et les éducateurs pour la conception de programmes d'alphabétisation. Les nouvelles versions (v.2) de ces bases sont téléchargeables sur ce site.

 Le développement de Manulex_Infra et Manulex_Morpho a été motivé par l'observation que l'analyse des textes écrits destinés aux enfants ne fournissait des estimations statistiques que pour la fréquence d'occurrence des mots. L'objectif de Manulex_infra est de fournir des estimations quantitatives sur plusieurs variables infra-lexicales (syllabes, relations graphème-phonème, bigrammes...), et lexicales (voisinage lexical, homophonie, homographie). Les analyses effectuées reposent sur le corpus lexical de Manulex (Lété, Sprenger-Charolles, & Colé, 2004): environ 49.000 mots (44.000 formes orthographiques distinctes) issus de 54 livres scolaires en usage dans l'enseignement élémentaire. Manulex_morpho, qui utilise une partie du corpus de Manulex_infra, prend en compte la structure morphologique des mots écrits en codant les morpho-phonogrammes du niveau grapho-phonémique. Ceci concerne les marques nominales du genre et du nombre, certaines marques verbales (e.g, 'er', 'ont', 'ais') ainsi que les supports silencieux de dérivation et/ou de flexion en fin de mots ('d' de 'grand') qui sont prononcés dans les formes fléchies et/ou dérivées ('grande', 'grandeur'). 

Par rapport aux versions précédentes, les nouvelles versions de Manulex_infra et Manulex_morpho (v.2, dec. 2021) intègrent des modifications majeures.

La base de données Eqol_infra (v.1) a été développée récemment à partir des fréquences textuelles des mots rapportées dans la base EQOL (Stanké et al., 2019) et estimées à partir d'un corpus de 14.800 formes orthographiques issues de manuels scolaires et ouvrages de littérature jeunesse Québecois. L'analyse des caractéristiques des mots est similaire à celle de Manulex_infra.




Références


• Lété, B., Sprenger-Charolles, L., & Colé, P. (2004). Manulex: A grade-level lexical database from French elementary-school readers. Behavior Research Methods, Instruments, & Computers, 36, 156-166. doi.org/10.3758/BF03195560

• Peereman, R., Sprenger-Charolles, L., & Messaoud-Galusi, S. (2013). The contribution of morphology to the consistency of spelling-to-sound relations: A quantitative analysis based on French elementary school readers. Annee Psychologique, 113, 3-33. doi.org/10.4074/S0003503313001012 - - [PDF]

• Peereman, R., Lété, B., & Sprenger-Charolles, L. (2007). Manulex-Infra: Distributional characteristics of grapheme-phoneme mappings, infra-lexical and lexical units in child-directed written material. Behavior Research Methods, 39, 579-589. doi.org/10.3758/BF03193029 - - [PDF]

• Stanké, B., Le Mené, M., Rezzonico, S., Moreau, A. C., Dumais, C., Robidoux, J., Dault, C. et Royle, P. (2019). ÉQOL : Une nouvelle base de données québécoise du lexique du primaire comportant une échelle d’acquisition de l’orthographe lexicale. CORPUS, 19. doi.org/10.4000/corpus.3818