Prises et interrupteurs

Comment rédiger un texte pour qu'il soit compris. Obtention de statistiques et du niveau de lisibilité des documents. Qu'en est-il de la langue russe ?

Détails Création : 12/04/2014 20:02 Mise à jour : 10/03/2019 18:32 Publié : 12/04/2014 20:02

Récemment, de nombreux étudiants ont rencontré un problème dont j'aimerais parler aujourd'hui. Ce problème est associé à la vérification de l'unicité des travaux dans le service le plus courant de vérification du travail des étudiants en Russie - le site Web antiplagiat.ru.

Actuellement, le site antiplagiat.ru a effectué un certain nombre d'ajouts, après quoi certains documents sont affichés dans le système de vérification comme « Document suspect ». Il semble que le pourcentage d'unicité soit élevé, mais le fichier brille en rouge et un point d'exclamation s'affiche à côté du titre de l'œuvre, ce qui, selon les auteurs de cette innovation, signale à l'enseignant que quelque chose ne va pas avec le document.

Si vous cliquez sur l'icône « Document suspect », des informations sur le document s'ouvriront dans lesquelles vous pourrez voir la raison pour laquelle le site reconnaît le document comme suspect, en fait il y en a quatre :

Il peut en fait y avoir de nombreuses raisons associées à cela, mais l'enseignant va-t-il vraiment se donner la peine de comprendre quelle est exactement la raison de l'apparition de cette icône.

Voici ce que nous ont dit les créateurs de cette ressource :

« L’apparition de ce panneau indique que nous devons accorder plus d’attention à ce document. Il se peut qu'il y ait eu des tentatives pour contourner le système. Peut-être que le texte contient trop de mots étrangers ou des mots dont la longueur moyenne des mots est dépassée. Ceci est possible dans les ouvrages où de nombreux termes sont utilisés (ouvrages de chimie, de jurisprudence par exemple). Le rapport universitaire contient des statistiques textuelles sur la base desquelles ce signe apparaît (indice de lisibilité, longueur maximale des mots, etc.). L'apparition de ce signe et la mise en évidence du document ne font que donner un signal à l'enseignant pour qu'il accorde plus d'attention à ce texte. Cependant, ce n’est pas un fait que le travail a été réalisé de manière à contourner le système. La sélection des travaux s'effectue sur la base de certains indicateurs des statistiques textuelles, visibles en ouvrant le rapport à l'université. Cependant, tous ces indicateurs ne donnent pas un « ordre » précis de rejeter ce texte. Ils donnent simplement à l'enseignant une raison d'être plus attentif et plus sérieux dans la vérification de ce travail. Si le professeur ne le sait pas, il peut nous écrire une lettre et nous lui en parlerons. L’enseignant ne doit pas se concentrer uniquement sur les pourcentages et l’apparence de ce signe ; il doit aussi ouvrir le rapport et le visualiser.

Voici ce qu'écrivent les personnes insatisfaites de cette innovation :

Essayons maintenant de comprendre à quoi cela pourrait être lié et comment y remédier, comment supprimer ce « signe suspect » et rendre notre fichier normal.

Le plus souvent, cela est dû au fait que le texte contient des mots longs, complexes ou étrangers, par exemple « sociométrie », « libéralisé », GlobalFinance et autres, qui ne sont pas reconnus par la vérification orthographique automatique.

Tous les mots soulignés par Word en rouge sont mal orthographiés. Comme le montre la pratique, ce sont aussi tous des mots de plus de 10 lettres ; en général, nous devrons changer tous les mots très longs en synonymes ou les diviser en 2-3 mots pour qu'à la fin notre texte devienne compréhensible à la vérification. programme et il ne ressort plus "Un document suspect."

Résumons donc ce que nous devons faire pour rendre le fichier normal et réussir la vérification.

Indice de lisibilité- une mesure permettant de déterminer la complexité de la perception du texte par le lecteur. Indice de lisibilité peut être calculé en fonction de plusieurs paramètres : la longueur des phrases, des mots, le nombre précis de mots les plus fréquents (ou rares), etc.

Indice de lisibilité Flesch

La mesure la plus populaire a été créée par Rudolf Flesch, initialement pour la langue anglaise. Il évalue la complexité du texte à l'aide de la formule suivante :

F R E = 206,835 − 1,015 (total de mots, total de phrases) − 84,6 (total de syllabes, total de mots) (\displaystyle FRE=206,835-1,015\left((\frac (\mbox(total de mots))(\mbox(total de phrases))) \right)-84.6\left((\frac (\mbox(total des syllabes))(\mbox(total des mots)))\right))

FRE = 206,835 − (1,015 × ASL) − (84,6 × ASW)

Indice d'échelle FRAIS (Échelle de facilité de lecture Flesch) réparti comme suit :

100 : Très facile à lire. La longueur moyenne des phrases est de 12 mots ou moins. Il n'y a pas de mots de plus de deux syllabes. 65 : Pur anglais. La longueur moyenne d'une phrase est comprise entre 15 et 20 mots. En moyenne, les mots comportent 2 syllabes. 30 : Un peu difficile à lire. Les phrases contiennent jusqu'à 25 mots. Mots généralement de deux syllabes. 0 : Très difficile à lire. La phrase moyenne compte 37 mots. Un mot comporte en moyenne plus de 2 syllabes

Pour l'anglais une valeur de 90-100 correspond à un texte facile pour les écoliers du primaire, 60-70 - un texte que les bacheliers peuvent lire, les textes avec un indice de 0-30 sont destinés aux personnes ayant fait des études supérieures.

FRE = 206,835 − (1,3 × ASL) − (60,1 × ASW)

En général, la plupart des méthodes d'évaluation de la complexité des textes basées sur des indices de lisibilité des documents d'information et analytiques en russe donnent des scores qui vont au-delà à la fois de la plage de valeurs interprétée et des valeurs de référence. Dans le même temps, les résultats obtenus se caractérisent par un degré élevé de corrélation, puisque les développeurs utilisent un modèle mathématique de régression linéaire, ainsi que des paramètres de texte uniformes (longueur moyenne des mots, longueur moyenne des phrases). Cependant, les indices de lisibilité ne sont pas adaptés aux tests destinés aux adultes. Un professionnel ne devrait pas avoir de difficulté à comprendre les mots polysyllabiques. En fin de compte, le facteur de complexité réside dans la sémantique du texte et le caractère abstrait de sa présentation. Les indicateurs basés sur des indices de lisibilité sont mal interprétés car ils ne peuvent pas être directement utilisés pour prédire le temps de traitement d'une personne donnée.

Indice de lisibilité- une mesure permettant de déterminer la complexité de la perception du texte par le lecteur. Indice de lisibilité peut être calculé en fonction de plusieurs paramètres : la longueur des phrases, des mots, le nombre précis de mots les plus fréquents (ou rares), etc.

Indice de lisibilité Flesch

La mesure la plus populaire a été créée par Rudolf Flesch, à l'origine pour l'anglais. Il estime la complexité du texte à l'aide de la formule suivante

F R E = 206,835 − 1,015 mots au total phrases au total − 84, 6 syllabes au total mots au total, (\displaystyle FRE=206(,)835-1(,)015(\frac (\text(total des mots))(\text(total phrases)))-84(,)6(\frac (\text(total des syllabes))(\text(total des mots))),)

FRE = 206,835 − 1,015 × ASL − 84,6 × ASW,

ASL - longueur moyenne des phrases en mots (longueur moyenne des phrases en anglais), ASW - longueur moyenne des mots en syllabes (anglais. nombre moyen de syllabes par mot) . FRE = 206,835 − 1,3 × ASL − 60,1 × ASW.

En général, la plupart des méthodes d'évaluation de la complexité des textes basées sur des indices de lisibilité des documents d'information et analytiques en russe fournissent des scores qui se situent en dehors à la fois de la plage de valeurs interprétables et des valeurs de référence. Dans le même temps, les résultats obtenus se caractérisent par un degré élevé de corrélation, puisque les développeurs utilisent un modèle mathématique de régression linéaire, ainsi que des paramètres de texte uniformes (longueur moyenne des mots, longueur moyenne des phrases). Cependant, les indices de lisibilité ne sont pas adaptés aux tests destinés aux adultes. Un professionnel ne devrait pas avoir de difficulté à comprendre les mots polysyllabiques. En fin de compte, le facteur de complexité réside dans la sémantique du texte et le caractère abstrait de sa présentation. Les indicateurs basés sur des indices de lisibilité sont mal interprétés car ils ne peuvent pas être directement utilisés pour prédire le temps de traitement d'une personne donnée.

Indice de lisibilité- une mesure permettant de déterminer la complexité de la perception du texte par le lecteur. Indice de lisibilité peut être calculé en fonction de plusieurs paramètres : la longueur des phrases, des mots, le nombre précis de mots les plus fréquents (ou rares), etc.

Indice de lisibilité Flesch

La mesure la plus populaire a été créée par Rudolf Flesch, à l'origine pour l'anglais. Il estime la complexité du texte à l'aide de la formule suivante

F R E = 206,835 − 1,015 mots au total phrases au total − 84, 6 syllabes au total mots au total, (\displaystyle FRE=206(,)835-1(,)015(\frac (\text(total des mots))(\text(total phrases)))-84(,)6(\frac (\text(total des syllabes))(\text(total des mots))),)

FRE = 206,835 − 1,015 × ASL − 84,6 × ASW,

ASL - longueur moyenne des phrases en mots (longueur moyenne des phrases en anglais), ASW - longueur moyenne des mots en syllabes (anglais. nombre moyen de syllabes par mot) . FRE = 206,835 − 1,3 × ASL − 60,1 × ASW.

En général, la plupart des méthodes d'évaluation de la complexité des textes basées sur des indices de lisibilité des documents d'information et analytiques en russe fournissent des scores qui se situent en dehors à la fois de la plage de valeurs interprétables et des valeurs de référence. Dans le même temps, les résultats obtenus se caractérisent par un degré élevé de corrélation, puisque les développeurs utilisent un modèle mathématique de régression linéaire, ainsi que des paramètres de texte uniformes (longueur moyenne des mots, longueur moyenne des phrases). Cependant, les indices de lisibilité ne sont pas adaptés aux tests destinés aux adultes. Un professionnel ne devrait pas avoir de difficulté à comprendre les mots polysyllabiques. En fin de compte, le facteur de complexité réside dans la sémantique du texte et le caractère abstrait de sa présentation. Les indicateurs basés sur des indices de lisibilité sont mal interprétés car ils ne peuvent pas être directement utilisés pour prédire le temps de traitement d'une personne donnée.

Il se trouve que ces dernières années, je dois personnellement traiter de plus en plus de divers textes gouvernementaux, en particulier des lois et des documents financiers tels que les justifications du budget, et aussi essayer de les traduire du langage clérical inhumain en mots ou en diagrammes visuels qui seraient compréhensible à la fois pour moi et pour ceux à qui je raconte ensuite de quoi il s'agit.

Pendant tout ce temps, j'ai personnellement eu le fort sentiment que la langue russe était divisée en deux sous-espèces : la langue officielle juridique cléricale sèche et la « langue de l'Internet », avec des mots nouvellement formés, un jargon et une personnification significative. Avec le sentiment constant que « la vie ne peut pas continuer comme ça », tout cela m'a amené, d'abord, à chercher le nom correct pour comment tout cela s'appelle, puis à ce que les gens qui savent programmer peuvent en faire. .

Un peu d'histoire

Le 18 janvier 2011, le président Obama a publié un nouveau décret, E.O. 1356 - Améliorer la réglementation et l'examen de la réglementation. Il stipule que « [notre système de réglementation] doit garantir que les règles sont disponibles, convenues, écrites ». dans un langage simple, et sont faciles à comprendre.

Écrit langage simple (compréhensible)- ce n'est en aucun cas un terme courant ou une figure de style. Il s'agit d'une approche formulée au fil des décennies pour traduire les textes officiels, les documents, les discours des hommes politiques, les lois et tout ce qui a une signification officielle sous une forme compréhensible pour le simple mortel.

Un langage clair- il s'agit d'une écriture claire et concise conçue pour garantir que le lecteur comprenne le texte le plus rapidement et le plus complètement possible. Cela évite les détails excessifs, le langage et le jargon confus.

Alors que « clair » en anglais signifie « simple », mais en russe le mot « compréhensible » est plus proche de la traduction ; vous pouvez également dire un langage « clair » ou « simple ».

Une langue claire, en anglais - un langage clair, un phénomène qui sonnait initialement comme du « plain english » dans les pays anglophones, mais qui s'est très vite transformé en un phénomène à l'échelle mondiale avec les pays internationaux.

Il existe aujourd'hui dans le monde plusieurs dizaines d'organisations engagées dans la diffusion des idées sur l'intelligibilité des langues. Dans de nombreux pays, des lois sont adoptées, des livres sont publiés, des instructions officielles du gouvernement sont publiées sur la façon d'écrire dans un langage compréhensible et des prix annuels sont décernés au texte le plus compréhensible et le plus incompréhensible.

Mais tout cela n’existe pas en Russie, et pour comprendre ce que c’est dans le monde, essayons de comprendre comment cela fonctionne.

En quoi consiste la clarté ?

Tout ce qui concerne l’intelligibilité du langage se résume à deux termes : mesure et changement.

La mesure est l’évaluation de la simplicité du texte (« lisibilité », « lisibilité »). Cela est nécessaire pour comprendre si le texte doit être simplifié à l'avenir ou non, ou pour vérifier dans quelle mesure le texte a été simplifié. Des exemples de mesures sont les formules de lisibilité, il s'agit de tests spéciaux destinés aux écoliers/étudiants sur leur capacité à redire le texte qu'ils ont lu dans leurs propres mots et d'autres moyens de déterminer dans quelle mesure le texte était compréhensible pour les lecteurs.

Le changement est la prochaine étape après la mesure. Il s'agit d'éditer le texte selon les règles, approches et recommandations afin de le simplifier au maximum sans perdre son sens. Des exemples de changements sont des programmes spéciaux qui remplacent automatiquement certaines expressions verbales, ce sont des livres d'instructions sur la façon de réécrire correctement des textes complexes, ce sont des dictionnaires de « langage simple », ce sont des tests de textes sur un public d'âge avant publication.

Bien sûr, presque tout le monde peut évaluer subjectivement la clarté ou l’incompréhensibilité d’un texte, et beaucoup peuvent même corriger des textes complexes.

Mais nous parlerons de ce qui est plus proche de nous. À propos des façons de mesurer et de modifier des textes qui peuvent être automatisées. Tout d'abord, à propos de cette méthode de mesure de la complexité sous forme d'indices de lisibilité

Indices de lisibilité

Les indices de lisibilité sont des formules mathématiques créées pour évaluer la difficulté de lire et de comprendre des textes. En règle générale, ces formules utilisent des mesures de texte faciles à mesurer - le nombre de phrases, le nombre de mots, le nombre de lettres et de syllabes, sur la base desquelles elles donnent une évaluation numérique soit de la complexité du texte, soit l'éducation attendue du public.

Test de lisibilité Flesch-Kinkaid
Ce test était à l'origine basé sur le test de Rudolph Flash pour évaluer la complexité des textes anglais et a été modifié par Peter Kinkaid sous contrat pour l'US Navy.

Le test repose sur la thèse selon laquelle moins les phrases contiennent de mots et plus les mots sont courts, plus le texte est simple.

La formule de calcul est la suivante

Et il utilise 3 paramètres :

  • total de mots - total de mots
  • phrases totales - phrases totales
  • syllabes totales - syllabes totales.

Le résultat est le nombre d’années d’études universitaires américaines nécessaires pour comprendre le texte.

Veuillez noter qu'il s'agit uniquement d'une évaluation des mots et des phrases, mais pas de leur signification. Cette formule, comme toutes les suivantes, est élaborée d'après des textes naturels trouvés dans la vie. Parce que vous pouvez toujours écrire des mots et des phrases courtes qui n'ont aucun sens et dont personne n'aura besoin.

Test de lisibilité Coleman-Lian
Ce test a été développé par Meri Coleman et T.L. Liau pour une évaluation simple et mécanique de la complexité du texte. Contrairement au test Flash-Kinkaid et à de nombreuses méthodes d'évaluation de la lisibilité, il utilise des lettres plutôt que des syllabes, et la formule de calcul prend en compte le nombre moyen de lettres par mot et le nombre moyen de mots par phrase.

L - nombre moyen de lettres pour 100 mots
S - nombre moyen de phrases pour 100 mots

Test SMOG (qualité SMOG)
La formule SMOG a été développée par Harry McLaughlin en 1969 et publiée dans SMOG Grading - a New Readability Formula.

L'idée était que la complexité du texte est plus influencée par les mots complexes, qui sont toujours des mots comportant de nombreuses syllabes et plus il y a de syllabes, plus le mot est complexe.

La formule finale de note SMOG prenait en compte le nombre de mots polysyllabiques, de 3 syllabes ou plus, et le nombre de phrases. En fait, il s’agit d’une estimation de la proportion de mots composés par rapport au nombre de phrases.

Il se trouve que la formule SMOG a été la plus utilisée pour évaluer la complexité des textes médicaux et, dans des études ultérieures, elle a montré une plus grande précision que la formule Flash-Kinkaid.

Formule de lisibilité Dale-Chale
Cette formule a été développée en 1948 par Edgar Dale et Joan Chall à partir d'une liste de 763 mots, dont 80 % étaient familiers à la plupart des élèves de 4e année, identifiant ainsi les mots difficiles. En 1995, une formule mise à jour pour le même test est apparue, qui prenait déjà en compte 3 000 mots reconnaissables.

La formule elle-même est calculée tout simplement

Cependant, en raison des spécificités de l'évaluation, elle a été principalement utilisée et est utilisée pour vérifier les textes des écoliers à partir de la 4e année.

Index de lisibilité automatisé
Cette formule a été publiée en 1967 et, comme la formule de Coleman-Liau, était basée sur l'évaluation de la complexité des textes par le nombre de lettres. Cela a permis d'utiliser la formule dans les machines à écrire électriques pour mesurer la complexité des textes en temps réel.
Autres formules
De plus, de nombreuses formules ont été laissées de côté et sont également activement utilisées :
  • Formule de lisibilité gratuite
  • Indice de brouillard de tir
  • Formule de lisibilité Spache
  • Estimation de la lisibilité de Raygor
  • Linsear Écriture
  • Lexile
  • Formule de lisibilité de facilité de lecture Flesch
  • PRÉVISION

Tous sont calculés sur des principes similaires et nombre d’entre eux sont activement utilisés dans la pratique.

En savoir plus sur les formules de lisibilité de base sur Wikipédia : https://en.wikipedia.org/wiki/Category:Readability_tests

Malgré le fait qu'il existe des formules de lisibilité pour différentes langues - pour l'allemand, le japonais, le suédois, le portugais et d'autres, elles ne sont nulle part aussi diverses que pour la langue anglaise.

Sur la pratique

  • L'administration américaine de la sécurité sociale a publié un rapport spécial sur le respect des exigences de compréhension linguistique et, en particulier, ses employés utilisent un logiciel spécial - StyleWriter - pour aider à évaluer et simplifier les textes. Rapport de conformité à la norme SSA-2013 en écriture simple
  • Oregon Readability vérifie tous les textes qu'ils publient jusqu'au niveau 10e - Oregon Readability
  • Le Virginia Code exige un niveau de lisibilité obligatoire pour tous les contrats d'assurance vie et responsabilité civile et un test de lisibilité utilisant la formule Flesch-Kinkaid Virginia Codex 38.2.
  • Un grand nombre de publications, y compris des études gouvernementales, sont spécifiquement consacrées aux formules de lisibilité.

Et la langue russe ?

La langue russe et, par conséquent, les textes en russe diffèrent des textes en anglais par les syllabes, par la longueur des phrases, par le nombre de caractères dans lesquels les mots peuvent être reconnus comme polysyllabiques. En russe en particulier, les mots ont tendance à être plus longs, mais les phrases sont plus courtes. Dans le langage courant, il y a plus de mots polysyllabiques et les coefficients des formules doivent être différents.

Lorsque j'ai commencé à m'intéresser au sujet de l'intelligibilité du langage, j'ai tout d'abord essayé de trouver des publications sur ce sujet et des exemples d'implémentation pour la langue russe. Il s’est avéré qu’ils étaient presque totalement absents. Malgré le fait qu'il existe en Russie de nombreuses équipes fortes en linguistique computationnelle, en particulier en analyse de texte, mais précisément dans le domaine compréhensibilité de la langue presque un vide.

Pour décider quoi faire avec cela, j’ai décidé d’aller dans deux directions à la fois. La première est de trouver ceux qui sont intéressés à travailler sur ce sujet, et l'autre est de travailler moi-même sur la lisibilité dans les domaines que je comprends.

La recherche est à nous, NP « Information Culture », le concours annuel Apps4Russia, cette année, nous avons pris comme thème le thème de la compréhensibilité en général. Et la compréhensibilité de la langue russe est l'une des nominations. Le prix principal de la nomination est de 100 000 roubles, la deuxième place de 50 000 roubles. Vous pouvez les gagner si vous réalisez un projet technologique dans ce domaine. Vous développerez votre propre formule, rédigerez des instructions, effectuerez des recherches sur le niveau de lisibilité, par exemple les conditions d'utilisation des sites, améliorerez la formule existante, créerez un service permettant au navigateur de corriger ou de mesurer des textes, ou un service Web spécial. Il existe de nombreuses options, il n'y a rien d'autre à faire que de réfléchir un peu à l'idée et de lui donner vie.

Mais la deuxième direction est ce qui m'a conduit à cela avant de créer des dictionnaires compréhensibles et des instructions pour réécrire des langages complexes. Et avant de parler aux fonctionnaires de ce qu'ils disent dans de terribles fonctions. Tout d'abord, vous devez créer des formules pour évaluer la lisibilité de la langue russe.

Après avoir bricolé un peu la modélisation des coefficients, je me suis rapidement rendu compte que presque toutes les formules américaines étaient développées en étant accompagnées de tests dans les écoles et les universités. Ils ont été réalisés au fur et à mesure de la recherche scientifique et des articles scientifiques ont été publiés à leur sujet. En d’autres termes, tout était conforme à la science. Je n’avais pas encore l’opportunité ni les ressources nécessaires pour effectuer des tests hors ligne et il m’a fallu beaucoup de temps pour choisir la bonne approche.

Elle consiste à sélectionner les bons coefficients à partir de textes préalablement identifiés pour le public auquel ils sont destinés. La chose la plus évidente ici était de suivre des textes de lecture extrascolaires. Tous ont généralement une marque exacte pour la classe à laquelle ils sont destinés. A ceux-ci se sont ajoutés des textes officiels déjà connus, difficiles à lire, que j'ai utilisés comme exemples.

Pour tester cela, nous avons supposé qu'il existe une relation entre les paramètres impliqués dans les formules d'évaluation de la lisibilité. Et surtout que plus il y a de mots dans les phrases, plus elles contiennent de syllabes.

Cette thèse a été testée et les graphiques suivants ont été obtenus :
Dépendance de la complexité du texte sur le nombre moyen de syllabes

Dépendance de la complexité du texte sur le nombre moyen de mots dans une phrase

Dépendance du nombre moyen de syllabes par mot sur le nombre moyen de mots dans une phrase

Au total, nous avons obtenu 55 textes dont nous savions :

  • niveau d'éducation requis pour les comprendre
  • des indicateurs de qualité pour chaque texte : nombre moyen de syllabes par mot, nombre moyen de mots par phrase, nombre moyen de lettres par mot, etc.

Ensuite, la tâche consistait à inverser les formules et à résoudre un système avec 3 inconnues et 55 formules.
Les constantes de la formule ont été considérées comme inconnues et les paramètres ont été pris pour chaque texte.
Il ne restait plus qu'une tâche simple : sélectionner ces constantes.

Peut-être qu'il y avait et a toujours une belle solution mathématique, mais j'ai personnellement tout résolu de front selon le schéma suivant :

  1. les constantes ont reçu une plage de leurs valeurs probables par incréments de 0,0001
  2. pour chaque triplet de constantes, les mesures de lisibilité ont été calculées à l'aide de la formule sélectionnée
  3. puis l'écart par rapport à la valeur correcte a été calculé pour chaque texte
  4. les écarts pour tous les textes ont été recalculés et l'écart moyen pour le tableau a été obtenu

En conséquence, parmi toutes les variantes de constantes, celles pour lesquelles les écarts moyens étaient minimes ont été sélectionnées.

Toutes ces modélisations et calculs ont pris plusieurs semaines. Mais au final, il a été possible d'adapter presque tous les algorithmes en russe, avec le seul bémol : jusqu'à ce qu'ils passent un test expérimental complet, toutes les significations des formules sont conditionnelles.

Je vais donner le résultat pour l'une des formules - Index de lisibilité automatisé
Les valeurs constantes y sont 6,26, 0,2805 et 31,04

Puisque la langue russe a des phrases plus courtes, la constante du nombre moyen de phrases par mot est plus grande ; puisque les mots sont plus longs, la constante du nombre moyen de lettres par mot est plus petite. De plus, un facteur de correction a été sélectionné pour aider à aligner l'évaluation du texte sur le niveau d'éducation.

Voici à quoi ressemble le code source Python pour son calcul.

ARI_X_GRADE = 6,26 ARI_Y_GRADE = 0,2805 ARI_Z_GRADE = 31,04 def calc_ARI_index(n_letters, n_words, n_sent) : """ Métrique de l'indice de lisibilité automatisé (ARI) pour la langue russe avec paramètres constants """ si n_words == 0 ou n_sent == 0 : renvoie 0 n = ARI_X_GRADE * (float(n_letters) / n_words) + ARI_Y_GRADE * (float(n_words) / n_sent) - ARI_Z_GRADE renvoie n

Toutes les formules sont implémentées sous forme de service en ligne - ru.readability.io. En effet, toutes les formules adaptées y ont été testées, que je continue de développer et d'ajuster. Il existe une API et la possibilité d'obtenir des mesures de lisibilité pour n'importe quel texte.

Et pour tous ceux qui souhaitent développer indépendamment leurs propres formules sur Github, il existe tout cet échantillon de textes de formation https://github.com/infoculture/plainrussian/ et des métriques calculées à partir de ceux-ci.

Simple, mais pas trop simple

Les index de lisibilité sont intéressants et utiles, mais ils sont également très limités. Dans la pratique occidentale du travail sur l'intelligibilité du langage, il est toujours mentionné que les formules doivent être utilisées avec précaution, sans s'appuyer à 100 % sur elles, car elles peuvent parfois donner des résultats erronés ou insuffisamment précis. Dès lors, malgré leur utilisation généralisée, la question de leur développement se pose.

Et c’est la question que je voudrais aborder ici sur Habré.

Quelles autres approches pouvons-nous utiliser pour évaluer la complexité des textes ?

Peut-être quelques modèles de discours typiques du clergé ?
Pourrait-il y avoir des accords complexes au sein d’une phrase ?

Il y a sûrement quelque chose qui nous permettra d’avancer.

* Image sous Creative Commons 2.0 Attribution, Sharealike
* original - secure.flickr.com/photos/visualpunch/8746310544

Seuls les utilisateurs enregistrés peuvent participer à l'enquête. , S'il te plaît.