Description générale

La base de données Manulex_Infra fournit plusieurs descriptions quantitatives des caractéristiques orthographiques et grapho-phonologiques des mots Français rencontrés par les enfants à l'école élémentaire (Grade 1-5). Les mots analysés (environ 45.000) et leur fréquence d'occurrence sont issus de la base Manulex. La version 1 de Manulex_Infra a été initialement publiée en 2007 (référence ci-dessous) et rendue disponible à la fois en téléchargement à l’Université de Bourgogne (site maintenant fermé) et en consultation en ligne sur Manulex.org. La nouvelle version (v.2) de cette base, actuellement seulement accessible en téléchargement sur ce site, introduit plusieurs modifications majeures qui sont détaillées sous l’onglet ‘modifications de la version 1’. De nouvelles informations sont également ajoutées afin de faciliter la sélection de mots en fonction de leurs caractéristiques grapho-phonologiques.

Les principales caractéristiques statistiques des mots analysées dans Manulex_Infra concernent les relations entre les graphèmes (G) et les phonèmes (Ph), les premiers étant les correspondants orthographiques des seconds (par exemple, ‘ou’ pour /u/ dans le mot ‘tour’ ; ‘a’ pour /a/ dans ‘mal’). Les relations sont envisagées dans le sens de la lecture (de G à Ph) et de l’écriture (de Ph à G). La version 2 de Manulex_Infra introduit également une analyse des relations graphie-phonie sur des unités plus larges que G et Ph et correspondant à la rime phonologique des mots (/uR/ dans 'tour'; /al/ dans 'mal'). Les analyses de la version 2 prennent en compte soit l'ensemble des formes lexicales rencontrées dans les textes (comme dans la version 1), soit exclusivement les lexèmes (ou lemmes). Cette dernière analyse permet une description des associations graphie-phonie excluant les formes lexicales fléchies en genre (féminin) ou en nombre (pluriel) ainsi que les flexions verbales (personne, temps, mode).

D’autres caractéristiques sont également disponibles, portant sur différents index de longueur des mots (lettres, graphèmes, syllabes), le voisinage orthographique des mots (‘n-count’, distance Levenshtein), les fréquences bigrammiques et trigrammiques (groupements de deux ou trois lettres adjacentes), les homophones non-homographes ('saut' - 'seau'). Les analyses sont présentées en détail dans l’onglet "comprendre Manulex_Infra".

La version 2 de la base de données intègre des modifications majeures par rapport à la version précédente.

Manulex_Infra est associée à la publication suivante. Merci de la mentionner pour toute utilisation dans vos travaux : Peereman, R., Lété, B., & Sprenger-Charolles, L. (2007). Manulex-Infra: Distributional characteristics of grapheme-phoneme mappings, infra-lexical and lexical units in child-directed written material. Behavior Research Methods, 39, 579-589. doi.org/10.3758/BF03193029. Merci également de mentionner la version de la base utilisée (v.2) et l'adresse du site web.

Manulex Infra est soumis aux termes de la Licence Creative Commons Attribution - Pas d'Utilisation Commerciale - Partage des Conditions Initiales à l'Identique 4.0 International (CC BY-NC-SA 4.0)