Wie man einen Text so schreibt, dass er verstanden wird. Erhalten von Statistiken und dem Grad der Lesbarkeit von Dokumenten. Was ist mit der russischen Sprache?

Details Erstellt: 12.04.2014 20:02 Aktualisiert: 10.03.2019 18:32 Veröffentlicht: 12.04.2014 20:02

In letzter Zeit sind viele Studierende auf ein Problem gestoßen, über das ich heute sprechen möchte. Dieses Problem hängt mit der Überprüfung von Werken auf Einzigartigkeit im gängigsten Dienst zur Überprüfung studentischer Arbeiten in Russland zusammen – der Website antiplagiat.ru.

Derzeit hat die Website antiplagiat.ru eine Reihe von Ergänzungen vorgenommen, nach denen einige Dokumente im Verifizierungssystem als „Verdächtiges Dokument“ angezeigt werden. Es scheint, dass der Prozentsatz der Einzigartigkeit hoch sein mag, aber die Datei leuchtet rot und neben dem Titel der Arbeit wird ein Ausrufezeichen angezeigt, was laut den Autoren dieser Innovation dem Lehrer signalisiert, dass mit der Datei etwas nicht stimmt dokumentieren.

Wenn Sie auf das Symbol „Verdächtiges Dokument“ klicken, werden Informationen zum Dokument geöffnet, in denen Sie den Grund sehen können, warum die Site das Dokument als verdächtig erkennt. Tatsächlich gibt es vier davon:

Dafür kann es tatsächlich viele Gründe geben, aber wird sich der Lehrer wirklich die Mühe machen und herausfinden, was genau der Grund für das Erscheinen dieses Symbols ist?

Folgendes haben uns die Ersteller dieser Ressource gesagt:

„Das Erscheinen dieses Zeichens weist darauf hin, dass wir diesem Dokument mehr Aufmerksamkeit schenken müssen. Möglicherweise gab es Versuche, das System zu umgehen. Möglicherweise enthält der Text zu viele Fremdwörter oder Wörter, bei denen die durchschnittliche Wortlänge überschritten wird. Dies ist bei Werken möglich, in denen viele Begriffe verwendet werden (z. B. Werke zur Chemie, zur Rechtswissenschaft). Im Hochschulbericht sind Textstatistiken enthalten, anhand derer dieses Zeichen erscheint (Lesbarkeitsindex, maximale Wortlänge etc.). Das Erscheinen dieses Zeichens und die Hervorhebung des Dokuments sind lediglich ein Signal an den Lehrer, diesem Text mehr Aufmerksamkeit zu schenken. Es ist jedoch keine Tatsache, dass die Arbeiten tatsächlich so durchgeführt wurden, dass das System umgangen wurde. Die Auswahl der Werke erfolgt anhand bestimmter Indikatoren in der Textstatistik, die durch Öffnen des Berichts in der Universität einsehbar sind. Alle diese Indikatoren geben jedoch keinen genauen „Befehl“ zur Ablehnung dieses Textes. Sie geben dem Lehrer lediglich einen Grund, diese Arbeit aufmerksamer und ernsthafter zu überprüfen. Wenn der Lehrer das nicht weiß, kann er uns einen Brief schreiben und wir werden ihm davon erzählen. Der Lehrer sollte sich nicht nur auf die Prozentsätze und das Aussehen dieses Zeichens konzentrieren, sondern auch den Bericht öffnen und ihn sich ansehen.“

Das schreiben Leute, die mit dieser Innovation unzufrieden sind:

Versuchen wir nun herauszufinden, womit das zusammenhängt und wie man damit umgeht, wie man dieses „verdächtige Zeichen“ entfernt und unsere Datei wieder normalisiert.

Am häufigsten geschieht dies aufgrund der Tatsache, dass der Text lange, komplexe oder fremde Wörter enthält, zum Beispiel „Soziometrie“, „liberalisiert“, GlobalFinance und andere, die von der automatischen Rechtschreibprüfung nicht erkannt werden.

Alle Wörter, die Word rot unterstreicht, sind falsch geschrieben. Wie die Praxis zeigt, sind dies auch alle Wörter, die länger als 10 Buchstaben sind; im Allgemeinen müssen wir alle sehr langen Wörter in Synonyme umwandeln oder sie in 2-3 Wörter aufteilen, damit unser Text am Ende für die Verifizierung verständlich wird Programm und es fällt nicht mehr auf „Ein verdächtiges Dokument.“

Fassen wir also zusammen, was wir tun müssen, um die Datei normal zu machen und die Überprüfung zu bestehen.

Lesbarkeitsindex- ein Maß zur Bestimmung der Komplexität der Wahrnehmung des Textes durch den Leser. Lesbarkeitsindex kann anhand mehrerer Parameter berechnet werden: der Länge von Sätzen, Wörtern, der spezifischen Anzahl der häufigsten (oder seltensten) Wörter usw.

Flesch-Lesbarkeitsindex

Das beliebteste Maß wurde von Rudolf Flesch ursprünglich für die englische Sprache geschaffen. Es bewertet die Komplexität des Textes anhand der folgenden Formel:

F R E = 206,835 − 1,015 (Gesamtwörter, Gesamtsätze) − 84,6 (Gesamtsilben, Gesamtwörter) (\displaystyle FRE=206,835-1,015\left((\frac (\mbox(Gesamtwörter))(\mbox(Gesamtsätze))) \right)-84.6\left((\frac (\mbox(Gesamtsilben))(\mbox(Gesamtwörter)))\right))

FRE = 206,835 − (1,015 × ASL) − (84,6 × ASW)

Skalenindex FRES (Flesch Reading Ease Scale) wie folgt verteilt:

100 : Sehr leicht zu lesen. Die durchschnittliche Satzlänge beträgt 12 Wörter oder weniger. Es gibt keine Wörter mit mehr als zwei Silben. 65 : Einfaches Englisch. Die durchschnittliche Länge eines Satzes liegt zwischen 15 und 20 Wörtern. Im Durchschnitt bestehen Wörter aus zwei Silben. 30 : Etwas schwer zu lesen. Sätze bestehen aus bis zu 25 Wörtern. Normalerweise zweisilbige Wörter. 0 : Sehr schwer zu lesen. Der durchschnittliche Satz besteht aus 37 Wörtern. Ein Wort hat im Durchschnitt mehr als 2 Silben

Für Englisch Ein Wert von 90-100 entspricht einem einfachen Text für Grundschulkinder, 60-70 - einem Text, den Schulabsolventen lesen können, Texte mit einem Index von 0-30 sind für Menschen mit höherer Bildung gedacht.

FRE = 206,835 − (1,3 × ASL) − (60,1 × ASW)

Im Allgemeinen liefern die meisten Methoden zur Bewertung der Textkomplexität auf der Grundlage von Lesbarkeitsindizes für Informationen und analytische Dokumente in russischer Sprache Werte, die sowohl über den interpretierten Wertebereich als auch über die Referenzwerte hinausgehen. Gleichzeitig zeichnen sich die erzielten Ergebnisse durch einen hohen Korrelationsgrad aus, da die Entwickler ein mathematisches Modell der linearen Regression sowie einheitliche Textparameter (durchschnittliche Wortlänge, durchschnittliche Satzlänge) verwenden. Allerdings sind Lesbarkeitsindizes nicht an Tests für Erwachsene angepasst. Ein Fachmann sollte keine Schwierigkeiten haben, mehrsilbige Wörter zu verstehen. Letztlich ist der Komplexitätsfaktor die Semantik des Textes und die Abstraktheit seiner Darstellung. Auf Lesbarkeitsindizes basierende Indikatoren werden nicht gut interpretiert, da sie nicht direkt zur Vorhersage der Bearbeitungszeit einer bestimmten Person verwendet werden können.

Flesch-Lesbarkeitsindex

Das beliebteste Maß wurde von Rudolf Flesch ursprünglich für Englisch geschaffen. Es schätzt die Komplexität des Textes anhand der folgenden Formel

F R E = 206,835 − 1,015 Gesamtwörter Gesamtsätze − 84 , 6 Gesamtsilben Gesamtwörter , (\displaystyle FRE=206(,)835-1(,)015(\frac (\text(Gesamtwörter))(\text(Gesamt Sätze)))-84(,)6(\frac (\text(Gesamtzahl der Silben))(\text(Gesamtzahl der Wörter))),)

FRE = 206,835 − 1,015 × ASL − 84,6 × ASW,

ASL – durchschnittliche Satzlänge in Wörtern (englische durchschnittliche Satzlänge), ASW – durchschnittliche Wortlänge in Silben (englisch). durchschnittliche Silbenzahl pro Wort). FRE = 206,835 − 1,3 × ASL − 60,1 × ASW.

Im Allgemeinen liefern die meisten Methoden zur Bewertung der Textkomplexität auf der Grundlage von Lesbarkeitsindizes für Informationen und analytische Dokumente in russischer Sprache Werte, die sowohl außerhalb des interpretierbaren Wertebereichs als auch der Referenzwerte liegen. Gleichzeitig zeichnen sich die erzielten Ergebnisse durch einen hohen Korrelationsgrad aus, da die Entwickler ein mathematisches Modell der linearen Regression sowie einheitliche Textparameter (durchschnittliche Wortlänge, durchschnittliche Satzlänge) verwenden. Allerdings sind Lesbarkeitsindizes nicht an Tests für Erwachsene angepasst. Ein Fachmann sollte keine Schwierigkeiten haben, mehrsilbige Wörter zu verstehen. Letztlich ist der Komplexitätsfaktor die Semantik des Textes und die Abstraktheit seiner Darstellung. Auf Lesbarkeitsindizes basierende Indikatoren werden nicht gut interpretiert, da sie nicht direkt zur Vorhersage der Bearbeitungszeit einer bestimmten Person verwendet werden können.

Flesch-Lesbarkeitsindex

Das beliebteste Maß wurde von Rudolf Flesch ursprünglich für Englisch geschaffen. Es schätzt die Komplexität des Textes anhand der folgenden Formel

FRE = 206,835 − 1,015 × ASL − 84,6 × ASW,

Im Allgemeinen liefern die meisten Methoden zur Bewertung der Textkomplexität auf der Grundlage von Lesbarkeitsindizes für Informationen und analytische Dokumente in russischer Sprache Werte, die sowohl außerhalb des interpretierbaren Wertebereichs als auch der Referenzwerte liegen. Gleichzeitig zeichnen sich die erzielten Ergebnisse durch einen hohen Korrelationsgrad aus, da die Entwickler ein mathematisches Modell der linearen Regression sowie einheitliche Textparameter (durchschnittliche Wortlänge, durchschnittliche Satzlänge) verwenden. Allerdings sind Lesbarkeitsindizes nicht an Tests für Erwachsene angepasst. Ein Fachmann sollte keine Schwierigkeiten haben, mehrsilbige Wörter zu verstehen. Letztlich ist der Komplexitätsfaktor die Semantik des Textes und die Abstraktheit seiner Darstellung. Auf Lesbarkeitsindizes basierende Indikatoren werden nicht gut interpretiert, da sie nicht direkt zur Vorhersage der Bearbeitungszeit einer bestimmten Person verwendet werden können.

So kam es, dass ich mich persönlich in den letzten Jahren immer mehr mit verschiedenen Regierungstexten, insbesondere Gesetzen und Finanzdokumenten wie Haushaltsbegründungen, auseinandersetzen und auch versuchen musste, diese aus der unmenschlichen Geistlichensprache in Worte oder visuelle Diagramme zu übersetzen sowohl für mich als auch für diejenigen verständlich, denen ich dann erzähle, was es ist.

Während dieser ganzen Zeit hatte ich persönlich das starke Gefühl, dass die russische Sprache in zwei Unterarten unterteilt war – die trockene klerikale Amtssprache und die „Sprache des Internets“ mit neu gebildeten Wörtern, Jargon und bedeutender Personifizierung. Zusammen mit dem ständigen Gefühl, dass „das Leben so nicht weitergehen kann“, führte mich das alles dazu, zunächst nach dem richtigen Namen für das zu suchen, was alles heißt, und dann nach dem, was Leute, die sich mit Programmieren auskennen, damit machen können .

Eine kleine Geschichte

Am 18. Januar 2011 erließ Präsident Obama eine neue Executive Order, E.O. 1356 – Verbesserung der Regulierung und regulatorischen Überprüfung. Darin heißt es: „[unser Regulierungssystem] muss sicherstellen, dass Regeln verfügbar, vereinbart und schriftlich festgelegt sind.“ in einfacher Sprache und sind leicht verständlich.“

Geschrieben einfache (verständliche) Sprache- Dies ist keineswegs ein gebräuchlicher Begriff oder eine Redewendung. Hierbei handelt es sich um einen über Jahrzehnte erarbeiteten Ansatz, um offizielle Texte, Dokumente, Reden von Politikern, Gesetze und alles, was mit offizieller Bedeutung gefüllt ist, in eine für Normalsterbliche verständliche Form zu übersetzen.

Klare Sprache- Es handelt sich um klare, prägnante Texte, die darauf abzielen, dass der Leser den Text so schnell und vollständig wie möglich versteht. Es vermeidet übermäßige Details und verwirrende Sprache und Fachjargon.

Während „plain“ im Englischen „einfach“ bedeutet, liegt im Russischen das Wort „verständlich“ näher an der Übersetzung; man kann auch „klare“ oder „einfache“ Sprache sagen.

Eine klare Sprache, auf Englisch – Plain Language, ein Phänomen, das in englischsprachigen Ländern zunächst wie „Plain English“ klang, sich aber sehr schnell zu einem Phänomen im globalen Maßstab mit internationalen Ländern entwickelte.

Mittlerweile gibt es weltweit mehrere Dutzend Organisationen, die sich mit der Verbreitung der Ideen der Sprachverständlichkeit befassen. In vielen Ländern werden Gesetze erlassen, Bücher veröffentlicht, offizielle Regierungsanweisungen zum Schreiben in verständlicher Sprache veröffentlicht und jährlich Auszeichnungen für den verständlichsten und den unverständlichsten Text vergeben.

Aber das alles gibt es nicht in Russland, und um zu verstehen, was es in der Welt ist, versuchen wir herauszufinden, wie es funktioniert.

Worin besteht Klarheit?

Alles, was mit der Verständlichkeit von Sprache zu tun hat, lässt sich in zwei Begriffe einordnen: Messung und Veränderung.

Bei der Messung handelt es sich um die Beurteilung des Textes auf Einfachheit („Lesbarkeit“, „Lesbarkeit“). Dies ist notwendig, um zu verstehen, ob der Text in Zukunft vereinfacht werden muss oder nicht, oder um zu überprüfen, wie erfolgreich der Text vereinfacht wurde. Beispiele für Messungen sind Lesbarkeitsformeln, dabei handelt es sich um spezielle Tests für Schüler/Studenten, wie gut sie den gelesenen Text mit eigenen Worten nacherzählen können und andere Methoden zur Feststellung, wie verständlich der Text für die Leser war.

Veränderung ist der nächste Schritt nach der Messung. Dabei wird der Text gemäß den Regeln, Ansätzen und Empfehlungen bearbeitet, um ihn so weit wie möglich zu vereinfachen, ohne seine Bedeutung zu verlieren. Beispiele für Änderungen sind spezielle Programme, die einige verbale Ausdrücke automatisch ersetzen, dies sind Anleitungsbücher zum korrekten Umschreiben komplexer Texte, dies sind Wörterbücher für „einfache Sprache“ und das Testen von Texten vor der Veröffentlichung an ein Alterspublikum.

Natürlich kann fast jeder die Klarheit oder Unverständlichkeit eines Textes subjektiv für sich beurteilen und viele können sogar komplexe Texte korrigieren.

Aber wir werden darüber reden, was uns näher ist. Über Möglichkeiten zum Messen und Ändern von Texten, die automatisiert werden können. Zunächst zu dieser Methode zur Messung der Komplexität als Lesbarkeitsindizes

Lesbarkeitsindizes

Lesbarkeitsindizes sind mathematische Formeln, die erstellt wurden, um die Schwierigkeit beim Lesen und Verstehen von Texten einzuschätzen. In der Regel verwenden diese Formeln einfach zu messende Textmetriken – die Anzahl der Sätze, die Anzahl der Wörter, die Anzahl der Buchstaben und Silben, auf deren Grundlage sie eine numerische Einschätzung entweder der Komplexität des Textes oder geben die erwartete Bildung des Publikums.

Flesch-Kinkaid-Lesbarkeitstest

Dieser Test basierte ursprünglich auf dem Test von Rudolph Flash zur Beurteilung der Komplexität englischer Texte und wurde von Peter Kinkaid im Auftrag der US Navy modifiziert.

Der Test basiert auf der These, dass der Text umso einfacher ist, je weniger Wörter in den Sätzen und je kürzer die Wörter sind.

Die Berechnungsformel lautet wie folgt

Und es verwendet 3 Parameter:

Gesamtzahl der Wörter - Gesamtzahl der Wörter
Gesamtsätze - Gesamtsätze
Gesamtsilben - Gesamtsilben.

Das Ergebnis ist die Anzahl der Jahre amerikanischer Hochschulausbildung, die erforderlich sind, um den Text zu verstehen.

Bitte beachten Sie, dass es sich hier lediglich um eine Beurteilung von Wörtern und Sätzen handelt, nicht jedoch um deren Bedeutung. Diese Formel basiert, wie alle folgenden, auf natürlichen Texten, die man im Leben findet. Denn aus kurzen Wörtern und Sätzen, die niemand braucht, kann man immer völlige Sinnlosigkeit schreiben.

Coleman-Lian-Lesbarkeitstest

Dieser Test wurde von Meri Coleman und T.L. entwickelt. Liau zur einfachen und mechanischen Bewertung der Textkomplexität. Im Gegensatz zum Flash-Kinkaid-Test und vielen Methoden zur Bewertung der Lesbarkeit werden hier Buchstaben anstelle von Silben verwendet, und die Berechnungsformel berücksichtigt die durchschnittliche Anzahl der Buchstaben pro Wort und die durchschnittliche Anzahl der Wörter pro Satz.

L – durchschnittliche Anzahl von Buchstaben pro 100 Wörter
S – durchschnittliche Anzahl von Sätzen pro 100 Wörter

SMOG-Test (SMOG-Grad)

Die SMOG-Formel wurde 1969 von Harry McLaughlin entwickelt und in SMOG Grading – a New Readability Formula veröffentlicht.

Die Idee war, dass die Komplexität des Textes am stärksten von komplexen Wörtern beeinflusst wird, bei denen es sich immer um Wörter mit vielen Silben handelt und je mehr Silben, desto komplexer das Wort.

Die endgültige SMOG-Notenformel berücksichtigte die Anzahl der mehrsilbigen Wörter mit drei oder mehr Silben und die Anzahl der Sätze. Tatsächlich handelt es sich um eine Schätzung des Anteils zusammengesetzter Wörter an der Anzahl der Sätze.

Zufälligerweise wurde die SMOG-Formel am häufigsten zur Beurteilung der Komplexität medizinischer Texte verwendet und zeigte in nachfolgenden Studien eine höhere Genauigkeit im Vergleich zur Flash-Kinkaid-Formel.

Dale-Chale-Lesbarkeitsformel

Diese Formel wurde 1948 von Edgar Dale und Joan Chall auf der Grundlage einer Liste von 763 Wörtern entwickelt, von denen 80 % den meisten Schülern der 4. Klasse vertraut waren und so schwierige Wörter identifizierten. 1995 erschien eine aktualisierte Formel für denselben Test, die bereits 3.000 erkennbare Wörter berücksichtigte.

Die Formel selbst ist ganz einfach berechnet

Aufgrund der Spezifität des Assessments wurde und wird es jedoch hauptsächlich zur Überprüfung von Texten für Schüler ab der 4. Klasse eingesetzt.

Automatisierter Lesbarkeitsindex

Diese Formel wurde 1967 veröffentlicht und basierte wie die Coleman-Liau-Formel auf der Beurteilung der Komplexität von Texten anhand der Anzahl der Buchstaben. Dadurch konnte die Formel in elektrischen Schreibmaschinen eingesetzt werden, um die Komplexität von Texten in Echtzeit zu messen.

Andere Formeln

Darüber hinaus bleiben viele Formeln außen vor, die auch aktiv genutzt werden:

Kostenlose Lesbarkeitsformel
Gunning-Nebel-Index
Spache-Lesbarkeitsformel
Raygor-Lesbarkeitsschätzung
Linsear Write
Lexile
Flesch Reading Ease Lesbarkeitsformel
PROGNOSE

Alle basieren auf ähnlichen Prinzipien und viele von ihnen werden in der Praxis aktiv eingesetzt.

Lesen Sie mehr über grundlegende Lesbarkeitsformeln auf Wikipedia: https://en.wikipedia.org/wiki/Category:Readability_tests

Obwohl es Lesbarkeitsformeln für verschiedene Sprachen gibt – für Deutsch, Japanisch, Schwedisch, Portugiesisch und andere – sind sie nirgendwo so vielfältig wie für die englische Sprache.

Zur Praxis

Die US-amerikanische Sozialversicherungsbehörde hat einen Sonderbericht zur Einhaltung der Anforderungen an die Sprachverständlichkeit veröffentlicht und ihre Mitarbeiter verwenden insbesondere eine spezielle Software – StyleWriter –, um bei der Bewertung und Vereinfachung von Texten zu helfen. SSA-2013 Plain Writing Compliance Report
Oregon Readability prüft und verifiziert alle von ihnen veröffentlichten Texte bis zur 10. Klasse – Oregon Readability
Der Virginia Code verlangt ein verbindliches Lesbarkeitsniveau für alle Lebens- und Unfallversicherungsverträge und einen Lesbarkeitstest anhand der Flesch-Kinkaid Virginia Codex 38.2-Formel.
Eine große Anzahl von Veröffentlichungen, darunter auch Regierungsstudien, widmen sich speziell den Lesbarkeitsformeln von science.gov, der Lesbarkeit auf Klassenebene

Was ist mit der russischen Sprache?

Die russische Sprache und dementsprechend Texte in russischer Sprache unterscheiden sich von Texten in englischer Sprache in Silben, in der Länge der Sätze, in der Anzahl der Zeichen, an denen Wörter als mehrsilbig erkannt werden können. Insbesondere im Russischen sind die Wörter tendenziell länger, die Sätze jedoch kürzer. Im allgemeinen Sprachgebrauch gibt es mehr mehrsilbige Wörter und die Koeffizienten in Formeln sollten unterschiedlich sein.

Als ich gerade begann, mich für das Thema Sprachverständlichkeit zu interessieren, habe ich zunächst versucht, Veröffentlichungen zu diesem Thema und Beispiele für Umsetzungen für die russische Sprache zu finden. Es stellte sich heraus, dass sie fast vollständig fehlten. Trotz der Tatsache, dass es in Russland viele starke Teams in der Computerlinguistik gibt, insbesondere in der Textanalyse, aber gerade auf diesem Gebiet Verständlichkeit der Sprache fast ein Vakuum.

Bei der Entscheidung, was ich damit machen sollte, entschied ich mich für zwei Wege gleichzeitig. Der erste Weg besteht darin, diejenigen zu finden, die daran interessiert sind, an diesem Thema zu arbeiten, und der andere besteht darin, selbst an der Lesbarkeit in den Bereichen zu arbeiten, die ich verstehe.

Die Suche gehört uns, NP „Informationskultur“, der jährliche Wettbewerb Apps4Russia, in diesem Jahr haben wir das Thema Verständlichkeit im Allgemeinen zum Thema genommen. Und die Verständlichkeit der russischen Sprache ist eine der Nominierungen. Der Hauptpreis der Nominierung beträgt 100.000 Rubel, der zweite Platz 50.000. Sie können sie gewinnen, wenn Sie ein Technologieprojekt in diesem Bereich durchführen. Sie entwickeln Ihre eigene Formel, erstellen Anweisungen, recherchieren zum Beispiel den Grad der Lesbarkeit von Nutzungsbedingungen auf Websites, verbessern die bestehende Formel, erstellen einen Dienst für den Browser zum Korrigieren oder Messen von Texten oder einen speziellen Webdienst. Es gibt viele Möglichkeiten, mehr ist nicht erforderlich, außer ein wenig über die Idee nachzudenken und sie in die Tat umzusetzen.

Aber die zweite Richtung hat mich dazu geführt, bevor ich Verständlichkeitswörterbücher und Anleitungen zum Umschreiben komplexer Sprachen erstellt habe. Und bevor Sie mit Beamten darüber sprechen, was sie in einem schrecklichen Amt sagen. Zunächst müssen Sie Formeln zur Beurteilung der Lesbarkeit der russischen Sprache erstellen.

Nachdem ich ein wenig an der Modellierung der Koeffizienten herumgebastelt hatte, stieß ich schnell auf die Tatsache, dass fast alle amerikanischen Formeln mit begleitenden Tests in Schulen und Universitäten entwickelt wurden. Sie wurden durchgeführt, als wissenschaftliche Forschung durchgeführt und wissenschaftliche Artikel darüber veröffentlicht wurden. Mit anderen Worten, alles entsprach der Wissenschaft. Ich hatte weder die Möglichkeit noch die Ressourcen, Offline-Tests durchzuführen, und es hat viel Zeit gekostet, den richtigen Ansatz auszuwählen.

Es besteht darin, die richtigen Koeffizienten anhand von Texten auszuwählen, die zuvor für das Publikum identifiziert wurden, für das sie geschrieben wurden. Am naheliegendsten war hier die Aufnahme außerschulischer Lesetexte. Bei allen ist in der Regel genau angegeben, für welche Klasse sie bestimmt sind. Hinzu kamen bereits bekannte, schwer lesbare offizielle Texte, die ich als Beispiele herangezogen habe.

Um dies zu testen, wurde die Annahme getroffen, dass ein Zusammenhang zwischen den Parametern besteht, die in den Formeln zur Lesbarkeitsbewertung eine Rolle spielen. Und insbesondere: Je mehr Wörter in Sätzen vorkommen, desto mehr Silben enthalten sie.

Diese These wurde überprüft und die folgenden Grafiken wurden erhalten:
Abhängigkeit der Textkomplexität von der durchschnittlichen Silbenzahl

Abhängigkeit der Textkomplexität von der durchschnittlichen Wortanzahl in einem Satz

Abhängigkeit der durchschnittlichen Silbenzahl pro Wort von der durchschnittlichen Wortzahl eines Satzes

Insgesamt haben wir 55 Texte erhalten, aus denen wir wussten:

welches Bildungsniveau erforderlich ist, um sie zu verstehen
Qualitätsmetriken für jeden Text: durchschnittliche Anzahl Silben pro Wort, durchschnittliche Anzahl Wörter pro Satz, durchschnittliche Anzahl Buchstaben pro Wort usw

Als nächstes bestand die Aufgabe darin, die Formeln umzukehren und ein System mit 3 Unbekannten und 55 Formeln zu lösen.
Die Konstanten in der Formel wurden als unbekannt betrachtet und die Parameter wurden für jeden Text übernommen.
Es blieb nur noch eine einfache Aufgabe übrig – die Auswahl dieser Konstanten.

Vielleicht hatte und hat es eine schöne mathematische Lösung, aber ich persönlich habe alles frontal nach folgendem Schema gelöst:

Den Konstanten wurde ein Bereich ihrer wahrscheinlichen Werte in Schritten von 0,0001 zugewiesen
Für jedes Konstantentripel wurden Lesbarkeitsmetriken anhand der ausgewählten Formel berechnet
Anschließend wurde für jeden Text die Abweichung vom korrekten Wert berechnet
Abweichungen für alle Texte wurden neu berechnet und die durchschnittliche Abweichung für das Array ermittelt

Als Ergebnis wurden aus allen Konstantenvarianten diejenigen ausgewählt, bei denen die durchschnittlichen Abweichungen minimal waren.

Die gesamte Modellierung und Berechnung dauerte mehrere Wochen. Aber am Ende war es möglich, fast alle Algorithmen ins Russische zu adaptieren, mit der einzigen Einschränkung, dass alle Bedeutungen der Formeln bedingt sind, bis sie einen vollständigen experimentellen Test bestehen.

Ich werde das Ergebnis für eine der Formeln angeben – Automated Readability Index
Die dortigen konstanten Werte sind 6,26, 0,2805 und 31,04

Da die russische Sprache kürzere Sätze hat, ist die Konstante für die durchschnittliche Anzahl der Sätze pro Wort größer; da die Wörter länger sind, ist die Konstante für die durchschnittliche Anzahl der Buchstaben pro Wort kleiner. Darüber hinaus wurde ein Korrekturfaktor gewählt, um die Bewertung des Textes an den Bildungsstand anzupassen.

So sieht der Python-Quellcode für seine Berechnung aus.

ARI_X_GRADE = 6,26 ARI_Y_GRADE = 0,2805 ARI_Z_GRADE = 31,04 def calc_ARI_index(n_letters, n_words, n_sent): „““ Automated Readability Index (ARI)-Metrik für die russische Sprache mit konstanten Parametern „““, wenn n_words == 0 oder n_sent == 0: return 0 n = ARI_X_GRADE * (float(n_letters) / n_words) + ARI_Y_GRADE * (float(n_words) / n_sent) - ARI_Z_GRADE return n

Alle Formeln werden als Onlinedienst implementiert – ru.readability.io. Eigentlich wurden dort alle angepassten Formeln getestet, die ich immer weiter entwickle und anpasse. Es gibt eine API und die Möglichkeit, Lesbarkeitsmetriken für jeden Text abzurufen.

Und für alle, die auf Github selbstständig eigene Formeln entwickeln möchten, gibt es die ganze Trainingsprobe an Texten https://github.com/infoculture/plainrussian/ und daraus berechneten Metriken.

Einfach, aber nicht zu einfach

Lesbarkeitsindizes sind cool und nützlich, aber sie sind auch sehr begrenzt. In der westlichen Praxis der Arbeit an der Sprachverständlichkeit wird immer darauf hingewiesen, dass Formeln sorgfältig verwendet werden sollten und man sich nicht zu 100 % auf sie verlassen sollte, da sie manchmal fehlerhafte oder nicht ausreichend genaue Ergebnisse liefern können. Daher stellt sich trotz ihrer weiten Verbreitung die Frage nach ihrer Entwicklung.

Und das ist die Frage, die ich hier auf Habré diskutieren möchte.

Mit welchen anderen Ansätzen können wir die Komplexität von Texten beurteilen?

Vielleicht einige typische klerikale Sprachmuster?
Könnte es innerhalb eines Satzes komplexe Vereinbarungen geben?

Sicherlich gibt es etwas, das es uns ermöglicht, voranzukommen.

* Bild unter Creative Commons 2.0 Namensnennung, Weitergabe unter gleichen Bedingungen
* Original – secure.flickr.com/photos/visualpunch/8746310544

An der Umfrage können nur registrierte Benutzer teilnehmen. , Bitte.