Tous droits réservés

Utilise-t-on plutôt des mots courts ou longs ?

Fréquence des mots en fonction de leur longueur dans des textes en français

Publié :
Auteur :
Catégorie :
Temps de lecture estimé : 7 minutes

Suite à un commentaire lors d’une discussion sur l’estimation des temps de lecture, j’ai voulu observer par moi-même la distribution des mots en fonction de leur taille dans des textes écrits en français.

Variabilité liée au choix de l'échantillon

J’ai commencé par comparer les trois premiers chapitres de L’Assommoir de Zola.

Il s’agit de trois chapitres d’une même œuvre par un seul auteur. Cela donne une idée de la variabilité liée au choix de l’échantillon. Chaque chapitre fait quelques dizaines de kilo-octets.

On observe assez peu de variabilité, ce qui indique que la taille de l’échantillon semble suffisamment grande pour mon usage. Le pic remarquable correspond aux mots de deux lettres (tels que un, et, de, es, ai, …)

Comparaison des trois premiers chapitres de L’Assommoir de Zola.

Variabilité liée au style

J’ai voulu ensuite comparer différents auteurs. Les heureux élus sont Zola, Voltaire, Proust et Dwayn.

L’idée derrière cette comparaison est de voir la variabilité liée au style des auteurs. Il s’agit d’une comparaison pour des extraits de taille approximativement comparables. Le plus petit texte est celui de Voltaire (environ 30 ko), le plus long celui de Proust (environ 400 ko).

La variabilité n’est pas vraiment notable, on peut donc dire que chaque auteur utilise des mots dont la longueur est représentative du français écrit usuel.

Comparaison de différents auteurs, de différentes époques.

Statistiques générales

La longueur moyenne d’un mot est de 4,8 caractères.

Le mot médian a une longueur de 4 caractères.

Ses valeurs sont sujettes à prendre avec précaution puisque la séparation en mots est faite avec plein de défauts (voir la section suivante).

Données et outils

Données

J’ai utilisés les sources suivantes :

Outils

J’ai utilisé un script Python (ci-dessous) pour réaliser ces analyses rudimentaires. Il a des défauts assez majeurs, comme le fait d’ignorer la ponctuation et d’ignorer les apostrophes pour couper les mots.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
import matplotlib.pyplot as plt


# TODO: improve error management
def read_text(text_file):
    """Read a text in a text file."""
    with open(text_file, 'r') as text_file:
        text = text_file.read()
    return text


# TODO: manage punctuation
# TODO: improve to also split at quotes
def split_into_words(s):
    """Split a string into words."""
    return str.split(s)


def count_words_by_length(text):
    """Count the number of words of each lengths."""
    words = split_into_words(text)
    print(words)
    words_length = list(map(len, words))
    lengths = list(range(min(words_length), max(words_length) + 1))
    counts = []
    for i in range(len(lengths)):
        counts.append(words_length.count(lengths[i]))
    return lengths, counts


def counts_to_frequencies(lengths, counts):
    total = sum(counts)
    frequencies = [count/total for count in counts]
    return lengths, frequencies


def plot_distr(lengths, frequencies, label):
    """Plot the frequencies of words per length for a text."""
    plt.figure()
    plt.plot(lengths, frequencies)
    plt.xlabel('Longueur (caractères)')
    plt.ylabel('Fréquence')
    plt.title('Distribution du nombre de mots par longueur')
    plt.legend([label])
    plt.show()


def plot_distr_compare(lengths_freqs_label_list):
    """Plot the frequencies of words per length for many texts."""
    plt.figure()
    lengths, freqs, labels = zip(*lengths_freqs_label_list)
    for i in range(len(lengths)):
        plt.plot(lengths[i], freqs[i])
    plt.xlabel('Longueur (caractères)')
    plt.ylabel('Fréquence')
    plt.title('Distribution des mots par longueur')
    plt.legend(labels)
    plt.show()


if __name__ == '__main__':
    # input_files = ["zola-assommoir-chap1.txt", "zola-assommoir-chap2.txt", "zola-assommoir-chap3.txt"]
    # labels = ["L'Assommoir, chap. 1", "L'Assommoir, chap. 2", "L'Assommoir, chap. 3"]

    input_files = ["proust-jeunes_filles_fleurs_chap1.txt", "zola-assommoir-chap1.txt", "voltaire-candide-chap1-5.txt", "dwayn-mordor.txt"]
    labels = ["Proust, À l'ombre des jeunes filles [...], chap. 1", "Zola, L'Assommoir, chap. 1", "Voltaire, Candide, chap. 1-5", "Dwayn, Le bilan : l'Ombre du Mordor [...]"]

    sets = []
    for file, label in zip(input_files, labels):
        text = read_text(file)
        l, c = count_words_by_length(text)
        l, f = counts_to_frequencies(l, c)
        sets.append((l, f, label))

    plot_distr_compare(sets)

26 commentaires

Reprise du dernier message de la page précédente

T’es sur de vouloir parler de la prononciation pour expliquer l’importance de l’anglais ?

Oui. L’anglais est pas trop difficile a prononcer au sens ou tu seras compris meme si, comme les francais, tu ne sais pas bien prononcer. Je ne parle pas de la correspondance ecrit <-> prononciation. Mais de la difficulte de prononciation.

À part quelques pièges avec les sch / ch, mais qui n’empêcheront pas un germanophone de te comprendre, l’allemand se prononce comme il s’écrit. C’est parfois dure à prononcer, mais on n’a pas à se poser la question du comment ça se prononce.

Le polonais a aussi une (quasi) parfaite bijection entre l’ecrit et la prononciation. Maintenant, je ne vois pas comment tu arrives a te poser la question de savoir pourquoi l’allemand ou le polonais ne sont pas des lingua franca… Peut-etre que parce que ce qui prime pour l’early adoption c’est la prononciation syllabique et pas la correspondance ecrit / oral.

L’anglais est une misère de ce point de vue là (peu de correspondance écrit - prononciation).

C’est un probleme qui survient peu (ou est peu genant) au debut de l’apprentissage.

Ton argument est complètement franco-centrée et/ou occidental-centré.

Mec, c’est toi qui est franco-centre. Je te rappelle que j’ai vecu plus de temps a l’etranger qu’en France puis que j’ai l’age de voyager et que je cotoie des dizaines de langues tous les jours justement. Et toi ? (c’est plus un argument d’experience que d’autorite qu’on se le dise)

La majorité des langues du monde sont des langues tonales. Le français est très répandu malgré une grammaire délicate, une orthographe décorelée de l’écrit (mais moins que l’anglais), une phonologie absconse (pas moins de 16 voyelles : a, ɑ, e, ɛ, i, o, ɔ, u, y, ə, œ, ø, ɑ̃, ɔ̃, ɛ̃, œ̃ – dont pas moins de 4 nasales, là où des langues ont 5 voire 3 voyelles en tout). Le français devrait être parlé à peu près nulle part selon ces « facteurs évidents », et pourtant…

Il l’est principalement dans ses anciennes colonies et il disparait ailleurs… pour ces raisons evidentes.

« Accessoirement », les occidentaux sont toute petite partie de la population mondiale.

Et donc ? C’est d’autant plus un argument en faveur du fait qu’il faut que la lingua franca soit d’autant plus simple… (outre les considerations coloniales). D’ailleurs, il est vrai que dans les pays peu ou pas occidentalises, on parle assez mal l’anglais et en general on participe assez peu a la mondialisation et aux echanges culturels mondiaux (la encore c’est l’oeuf ou la poule mais malgre leur taille et poids economique et culturel, la Chine se met a l’anglais).

L’anglais, le français, l’espagnol, le portugais, l’arabe ou le mandarin sont des langues véhiculaires aussi développées d’abord et avant tout à cause des empires coloniaux qui les ont imposées un peu partout, dans des endroits où il n’y avait pas ou peu de cohérence linguistique préexistante. Ce qui les a imposé comme langue de travail et de commerce. Et ce sans la moindre considération pour leurs qualités ou problèmes intrinsèques. Ajoute aussi les considérations politiques, comme par exemple la tentative d’imposer l’hindi comme langue officiel d’Inde.

C’est vrai a une epoque. C’est faux dans l’absolue et aujourd’hui. Si demain les chinois nous envahissent, tu peux etre a peu pres sur que dans 100 ans la lingua franca ne sera pas le chinois (sauf pression politique assez forte a.k.a. dictature). Pire, sans l’aide de personne, les chinois perdent leur ecriture, et beaucoup de langues ont tendances a adopter l’alphabet latin (ok, certaines adoptions sont politiques du style la Turquie ou meme la Pologne qui gagnerait a utiliser le cyrillique) par contagion (alors on me dira l’oeuf ou la poule ? et je dirais probablement un mix des deux mais il est sur que l’ecriture via un alphabet latin est plus simple que l’arabe du point de vue numerique ce qui met une sacre pression sur ces langue systemes d’ecritures).

Il est certain que les considerations d’ordre politique et historique jouent ou on joue (parfois un grand role) mais il y a bien des raisons qui font que le francais n’est nullement une langue en expansion autre qu’artificiellement et encore moins uen lingua franca alors qu’elle partage grosso-modo les meme difficultes que l’anglais.

Dans quel sens ? L’anglais a un vocabulaire très riche, autant que le français même pour exprimer des choses courantes sans tomber dans la littérature.

L’anglais a evidemment un vocabulaire tres riche. Mais de deux choses l’une:

  • Le nombre moyen de mots utilises par le locateur naifs moyen diminue avec le temps (probablement partout)
  • Je parle de l’anglais lingua franca et pas de l’anglais d’un natif.

On parle de lingua franca, pas de l’apprentissage d’une langue pour en devenir un expert. Le but de la lingua franca c’est de pouvoir communiquer facilement et au plus grand nombre: il faut donc qu’on puisse communiquer avec un apprentissage rapide, ce qui implique des regles grammaticales assez simples, peu de vocabulaire pour se debrouiller, etc.

A ce titre, l’anglais repond parfaitement a ces criteres (plus que beaucoup d’autres langues). A contrario, si tu veux demander un cafe en polonais, il faudra deja maitriser trois cas, chacun tres complexes, avec plein d’exceptions. Ce qui fait pour demander quelque chose il faudra maitrer N regles (selon le genre des mots, le temps, la personne a qui on s’adresse, etc) contre M « N en anglais.

Encore un exemple pour montrer une difference evidente de courbe d’apprentissage entre l’anglais et le polak sur un point de communication vitale. On s’accorde pour dire que les nombres c’est un must have qu’on doit apprendre tres rapidemment (au moins jusqu’a quelques ordre de grandeurs). En anglais apprendre les cardinaux suffit pour pour savoir dire l’heure. En polonais il faudra apprendre les cardinaux (car on ne dit pas il est deux heures mais il est la deuxieme heure).

C’est assez piégeur, cela peut vite donner un faux semblant de maitrise de la langue. Mais ça n’en reste pas moins un bel avantage pour débuter.

Il n’est pas question de maitrise, mais d’apprentissage jusqu’a une communication minimale (a un seuil fixe, raisonnable).

C’est honnêtement je pense la meilleure explication.

Mouai. Ca explique pourquoi le francais est encore parle, pas pourquoi l’anglais se developpe. Je pense surtout qu’a defaut d’un element politique mondial et majeur, l’anglais est un point d’equilibre: aucun interet a passer a une autre langue (et pas seulement par l’intertie de tout changer mais surtout parce que c’est un excellent compromis sur la courbe d’apprentissage, bien meilleur que la plupart des autres langues avec un peu d’influence).

C’est aussi un défaut, ça demande pas mal de gymnastique intellectuelle pour justement former et comprendre les phrases. L’avantage des règles c’est que cela donne un cadre qui simplifie la compréhension et diminue le risque de mauvaise interprétation.

Je ne suis pas d’accord. Tu peux toujours eviter cette gymnastique intellectuelle en anglais parce qu’elle est contextuelle (tu n’est pas assez bon pour comprendre ou te faire comprendre, donc tu paragraphes et on y arrive). Essaye de faire cela avec des langues ou la gymnastique intellectuelle est intrinsequement lie au language du type polonais et je peux te garantir que ton niveau de communication sera bien plus faible (sauf si tu as l’habitude de ce genre de langues comme disons un Tcheque).

Je ne crois pas que l’anglais soit intrinsèquement meilleur dans cet exercice que le français,

Quel avantage vois-tu au francais sur l’anglais en langue vehiculaire ? Personnellement, je n’en vois aucun: plus de sons, plus de regles, plus d’exception, plus de temps, plus de "je prononce meme pas le quart de ce qui est ecrit", etc. Ne me sort pas la diplomatie et l’expression de certaines nuances: ce n’est pas un usage vehiculaire. Est-ce que la courbe d’apprentissage du francais est plus facile que celle de l’anglais pour atteindre un niveau de communication minimale necessaire dans les echanges internationaux et en moyenne au niveau du globe ? Je ne pense pas.

Pour les phrasal verbes il y a toujours moyen de les contourner dans la communication a part quelques uns qui reviennent souvent. La encore, on parle de communication, pas de maitriser la langue.

« Kommunist Fried Chicken » | Macroeconomics: Three decades of intellectual regress

+1 -1

À part quelques pièges avec les sch / ch, mais qui n’empêcheront pas un germanophone de te comprendre, l’allemand se prononce comme il s’écrit. C’est parfois dure à prononcer, mais on n’a pas à se poser la question du comment ça se prononce.

Le polonais a aussi une (quasi) parfaite bijection entre l’ecrit et la prononciation. Maintenant, je ne vois pas comment tu arrives a te poser la question de savoir pourquoi l’allemand ou le polonais ne sont pas des lingua franca… Peut-etre que parce que ce qui prime pour l’early adoption c’est la prononciation syllabique et pas la correspondance ecrit / oral.

Mouais, dans ce cas c’est l’italien qui devrait être langue mondiale, la quasi totalité de ses fréquences et sons ont disponibles dans les autres langues européennes.

La correspondance écrit / oral est très importante pour apprendre une langue, ne serait-ce si tu l’apprends via l’écrit. Si tu as un usage quasi-oral, tu t’en fous mais c’est très rarement le cas.

Typiquement, j’apprends souvent de nouveau mots par l’écrit. Pour savoir si je sais le prononcer correctement, je dois l’amener dans une discussion orale pour que sous couvert de ridicule et de mauvaise compréhension on m’explique comment ça se dit vraiment.

Ce n’est pas très efficace, ni très agréable.

L’anglais est une misère de ce point de vue là (peu de correspondance écrit - prononciation).

Ton argument est complètement franco-centrée et/ou occidental-centré.

Mec, c’est toi qui est franco-centre. Je te rappelle que j’ai vecu plus de temps a l’etranger qu’en France puis que j’ai l’age de voyager et que je cotoie des dizaines de langues tous les jours justement. Et toi ? (c’est plus un argument d’experience que d’autorite qu’on se le dise)

L’expérience personnelle n’est pas un argument irréfutable.

Personnellement j’ai côtoyé, des néerlandophones, des germanophones, des russophones, des hispanophones, roumanophones, finnophones, etc. et bizarrement, comme tous les français ils ont appris l’anglais non parce que c’était une langue simple, mais parce que c’était une langue incontournable. Encore plus pour eux que pour nous, car le français bénéfice d’une traduction colossale que ce soit pour les livres, le cinéma, les logiciels, les sites web, les livres techniques, etc. Ce n’est pas le cas partout.

La majorité des langues du monde sont des langues tonales. Le français est très répandu malgré une grammaire délicate, une orthographe décorelée de l’écrit (mais moins que l’anglais), une phonologie absconse (pas moins de 16 voyelles : a, ɑ, e, ɛ, i, o, ɔ, u, y, ə, œ, ø, ɑ̃, ɔ̃, ɛ̃, œ̃ – dont pas moins de 4 nasales, là où des langues ont 5 voire 3 voyelles en tout). Le français devrait être parlé à peu près nulle part selon ces « facteurs évidents », et pourtant…

Il l’est principalement dans ses anciennes colonies et il disparait ailleurs… pour ces raisons evidentes.

Disparaît, disparaît. Des chiffres stp.

D’autant plus qu’avec les projections démographiques actuelles, le français aura plus de locuteurs natifs que l’anglais d’ici 30 ans. Si l’économie africaine se développe, la position centrale de l’anglais pourrait être remise en cause partiellement.

L’anglais, le français, l’espagnol, le portugais, l’arabe ou le mandarin sont des langues véhiculaires aussi développées d’abord et avant tout à cause des empires coloniaux qui les ont imposées un peu partout, dans des endroits où il n’y avait pas ou peu de cohérence linguistique préexistante. Ce qui les a imposé comme langue de travail et de commerce. Et ce sans la moindre considération pour leurs qualités ou problèmes intrinsèques. Ajoute aussi les considérations politiques, comme par exemple la tentative d’imposer l’hindi comme langue officiel d’Inde.

Il est certain que les considerations d’ordre politique et historique jouent ou on joue (parfois un grand role) mais il y a bien des raisons qui font que le francais n’est nullement une langue en expansion autre qu’artificiellement et encore moins uen lingua franca alors qu’elle partage grosso-modo les meme difficultes que l’anglais.

Breaking news, à 7 - 12 ans, quand l’enfant apprend une langue à l’école, c’est soit par obligation, soit parce qu’on lui dit que cela lui sera plus utile. Jamais la question de simplicité entre en ligne de compte.

Et comme tous les ingénieurs de France, pour avoir mon diplôme, je devais justifier d’un niveau B2 en anglais.

Et quand tu regardes, l’anglais est partout, c’est comme ça qu’il s’est imposé. Après la 2e GM, la langue parmi les pays occidentaux la plus répandue était l’anglais : Canada, USA, Australie, Nouvelle-Zélande et Royaume-Uni. Aucune autre langue ne pouvait rivaliser.

Et la 2e GM c’est le début du tourisme international, Hollywood qui s’impose partout, les USA qui dominaient politiquement, économiquement et diplomatiquement. L’aéronautique et l’informatique se sont développés avec l’anglais, ce qui a rendu sa littérature très anglophone et donc presque indispensable dans ces secteurs d’activité de pointe. De même pour la recherche scientifique mondial en fait.

Et bien entendu l’anglais a commencé à se répandre quand l’éducation universelle se mettait en place un peu partout.

Ces facteurs sont prépondérants dans l’adoption d’une langue par des étrangers.

Tu noteras que souvent il y a corrélation entre le niveau d’anglais et la nécessité de le parler. De nombreux pays européens côtoient l’anglais en permanence car ils ne peuvent tout traduire. Que ce soit le cinéma ou la littérature technique ou non. Ce n’est pas que l’anglais est facile et qu’ils sont enthousiastes,mais qu’ils répondent à un besoin.

On parle de lingua franca, pas de l’apprentissage d’une langue pour en devenir un expert. Le but de la lingua franca c’est de pouvoir communiquer facilement et au plus grand nombre: il faut donc qu’on puisse communiquer avec un apprentissage rapide, ce qui implique des regles grammaticales assez simples, peu de vocabulaire pour se debrouiller, etc.

Oui enfin l’anglais d’aéroport, c’est bien pour faire le touriste, pour les réunions professionnelles il en faut un peu plus quand même. Et quand tu vois malgré tout le merdier que c’est, la quantité de mauvaise compréhension entre locuteurs d’origines différentes,je ne suis absolument pas convaincu.

A ce titre, l’anglais repond parfaitement a ces criteres (plus que beaucoup d’autres langues). A contrario, si tu veux demander un cafe en polonais, il faudra deja maitriser trois cas, chacun tres complexes, avec plein d’exceptions. Ce qui fait pour demander quelque chose il faudra maitrer N regles (selon le genre des mots, le temps, la personne a qui on s’adresse, etc) contre M « N en anglais.

Ou alors comme beaucoup de gens tu fais l’équivalent de coffee please et hop. Tu demandes aux gens d’avoir de belles phrases en polonais mais pas en anglais. Ta comparaison n’est pas équitable.

C’est assez piégeur, cela peut vite donner un faux semblant de maitrise de la langue. Mais ça n’en reste pas moins un bel avantage pour débuter.

Il n’est pas question de maitrise, mais d’apprentissage jusqu’a une communication minimale (a un seuil fixe, raisonnable).

Mais si tu as le sentiment de maîtriser alors que c’est faux, c’est le meilleur moyen de te planter. Quand un francophone maîtrise de l’anglais que le vocabulaire transparent avec sa langue (donc mots d’origines latines),le jour où il va parler à un allemand il va galérer car son vocabulaire sera d’origine germanique essentiellement.

Mouai. Ca explique pourquoi le francais est encore parle, pas pourquoi l’anglais se developpe.

Je t’ai expliqué pourquoi l’anglais se développe : car il est partout déjà.

Pourquoi l’espéranto ne domine pas à ton avis ? Pourtant il explose tout sur la question.

Je ne suis pas d’accord. Tu peux toujours eviter cette gymnastique intellectuelle en anglais parce qu’elle est contextuelle (tu n’est pas assez bon pour comprendre ou te faire comprendre, donc tu paragraphes et on y arrive). Essaye de faire cela avec des langues ou la gymnastique intellectuelle est intrinsequement lie au language du type polonais et je peux te garantir que ton niveau de communication sera bien plus faible (sauf si tu as l’habitude de ce genre de langues comme disons un Tcheque).

C’est très chiant de devoir se répéter ou contourner sa pensée en permanence tu sais.

Peut être que cela t’amuse,mais je préfère formuler des phrases claires et compréhensibles dès le début sans trop hésiter sur l’ordre des mots faute de règle.

Je ne crois pas que l’anglais soit intrinsèquement meilleur dans cet exercice que le français,

Quel avantage vois-tu au francais sur l’anglais en langue vehiculaire ? Personnellement, je n’en vois aucun: plus de sons, plus de regles, plus d’exception, plus de temps, plus de "je prononce meme pas le quart de ce qui est ecrit", etc.

Foutage de gueule. Tu nous fait le coup de l’anglais d’aéroport mais d’un français de salon encore. On ne peut pas comparer comme ça, je vais te sortir des livres de grammaires anglaises pour natifs,tu vas voir que le français n’a rien à envier.

Est-ce que la courbe d’apprentissage du francais est plus facile que celle de l’anglais pour atteindre un niveau de communication minimale necessaire dans les echanges internationaux et en moyenne au niveau du globe ? Je ne pense pas.

Je ne pense pas qu’il soit plus difficile non plus pour ce but.

Pour les phrasal verbes il y a toujours moyen de les contourner dans la communication a part quelques uns qui reviennent souvent. La encore, on parle de communication, pas de maitriser la langue.

Une langue ça se pratique à plusieurs tu sais. Je parle avec des gens, je lis des écrits de natifs et non natifs.Et ils choisissent leur vocabulaire d’expression, sans tenir compte de mon amour ou non de ces verbes à particule.

Amateur de Logiciel Libre et de la distribution GNU/Linux Fedora. #JeSuisArius

+3 -1
Vous devez être connecté pour pouvoir poster un message.
Connexion

Pas encore inscrit ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte