Zásuvky a vypínače

Ako napísať text tak, aby bol zrozumiteľný. Získavanie štatistík a úroveň čitateľnosti dokumentov A čo ruský jazyk?

Podrobnosti Vytvorené: 4.12.2014 20:02 Aktualizované: 3.10.2019 18:32 Zverejnené: 4.12.2014 20:02

V poslednej dobe sa mnohí študenti stretli s problémom, o ktorom by som dnes rád hovoril. Tento problém súvisí s kontrolou jedinečnosti prác v najbežnejšej službe na kontrolu študentských prác v Rusku – na webovej stránke antiplagiat.ru.

V súčasnosti stránka antiplagiat.ru urobila niekoľko doplnkov, po ktorých sa niektoré dokumenty zobrazujú v systéme overovania ako „Podozrivý dokument“. Zdá sa, že percento jedinečnosti môže byť vysoké, ale súbor svieti načerveno a vedľa názvu práce sa zobrazuje výkričník, ktorý podľa autorov tejto novinky signalizuje učiteľovi, že niečo nie je v poriadku. dokument.

Ak kliknete na ikonu „Podozrivý dokument“, otvoria sa informácie o dokumente, v ktorých môžete vidieť dôvod, prečo stránka rozpozná dokument ako podozrivý, v skutočnosti sú štyri:

V skutočnosti môže byť s tým spojených veľa dôvodov, ale bude sa učiteľ skutočne obťažovať a zistiť, čo presne je dôvodom vzhľadu tejto ikony.

Tu je to, čo nám povedali tvorcovia tohto zdroja:

„Vzhľad tohto označenia naznačuje, že tomuto dokumentu musíme venovať väčšiu pozornosť. Možno došlo k pokusom o obídenie systému. Možno text obsahuje príliš veľa cudzích slov alebo slov, v ktorých je prekročená priemerná dĺžka slova. To je možné v prácach, kde sa používa veľa pojmov (napríklad práce o chémii, judikatúre). Vysokoškolská správa obsahuje textovú štatistiku, na základe ktorej sa tento znak objavuje (index čitateľnosti, maximálna dĺžka slova a pod.). Vzhľad tohto znaku a zvýraznenie dokumentu dáva len signál učiteľovi, aby venoval tomuto textu väčšiu pozornosť. Nie je však skutočnosťou, že práca bola skutočne vykonaná tak, aby sa systém obišiel. Výber prác sa uskutočňuje na základe určitých ukazovateľov v textových štatistikách, ktoré je možné vidieť po otvorení správy na univerzite. Všetky tieto ukazovatele však nedávajú presný „príkaz“ na odmietnutie tohto textu. Jednoducho dávajú učiteľovi dôvod, aby bol pri kontrole tejto práce pozornejší a serióznejší. Ak to učiteľ nevie, môže nám napísať list a my mu o tom povieme. Učiteľ by sa nemal sústrediť len na percentá a vzhľad tohto znaku, mal by si správu aj otvoriť a pozrieť si ju.“

Ľudia, ktorí nie sú spokojní s touto inováciou, píšu:

Pokúsme sa teraz zistiť, s čím to môže súvisieť a ako sa s tým vysporiadať, ako odstrániť tento „podozrivý znak“ a urobiť náš súbor normálnym.

Najčastejšie sa to deje v dôsledku skutočnosti, že text obsahuje dlhé, zložité alebo cudzie slová, napríklad „sociometria“, „liberalizovaný“, GlobalFinance a ďalšie, ktoré automatická kontrola pravopisu nerozpozná.

Všetky slová, ktoré Word podčiarkne červenou farbou, sú nesprávne napísané. Ako ukazuje prax, sú to všetky slová, ktoré sú vo všeobecnosti dlhšie ako 10 písmen, budeme musieť zmeniť všetky veľmi dlhé slová na synonymá alebo ich rozdeliť na 2-3 slová, aby bol náš text na konci zrozumiteľný pre overenie; program a už nevyniká „Podozrivý dokument“.

Poďme si teda zhrnúť, čo musíme urobiť, aby bol súbor normálny a prešiel overením.

Index čitateľnosti- miera určujúca zložitosť čitateľského vnímania textu. Index čitateľnosti možno vypočítať na základe niekoľkých parametrov: dĺžky viet, slov, konkrétneho počtu najfrekventovanejších (alebo zriedkavých) slov atď.

Fleschov index čitateľnosti

Najpopulárnejšie opatrenie vytvoril Rudolf Flesch, pôvodne pre anglický jazyk. Hodnotí zložitosť textu pomocou nasledujúceho vzorca:

F R E = 206,835 − 1,015 (celkový počet slov celkový počet viet) − 84,6 (celkový počet slabík celkový počet slov) (\displaystyle FRE=206,835-1,015\left((\frac (\mbox(celkový počet slov))(\mbox(celkový počet viet))) \right)-84,6\left((\frac (\mbox(celkový počet slabík))(\mbox(celkový počet slov))))\right))

FRE = 206,835 − (1,015 × ASL) − (84,6 × ASW)

Index mierky FRES (Fleschova stupnica ľahkosti čítania) distribuované takto:

100 : Veľmi ľahko čitateľné. Priemerná dĺžka vety je 12 slov alebo menej. Neexistujú slová s viac ako dvoma slabikami. 65 : Jednoduchá angličtina. Priemerná dĺžka vety je 15 až 20 slov. Slová majú v priemere 2 slabiky. 30 : Trochu náročné na čítanie. Vety obsahujú až 25 slov. Zvyčajne dvojslabičné slová. 0 : Veľmi ťažko čitateľné. Priemerná veta má 37 slov. Slovo má v priemere viac ako 2 slabiky

Pre angličtinu hodnota 90-100 zodpovedá ľahkému textu pre žiakov základných škôl, 60-70 - text, ktorý vedia prečítať absolventi školy, texty s indexom 0-30 sú určené pre ľudí s vyšším vzdelaním.

FRE = 206,835 − (1,3 × ASL) − (60,1 × ASW)

Vo všeobecnosti väčšina metód hodnotenia zložitosti textu na základe indexov čitateľnosti pre informačné a analytické dokumenty v ruštine dáva skóre, ktoré presahuje interpretovaný rozsah hodnôt aj referenčné hodnoty. Získané výsledky sa zároveň vyznačujú vysokou mierou korelácie, keďže vývojári používajú jeden matematický model lineárnej regresie, ako aj jednotné textové parametre (priemerná dĺžka slova, priemerná dĺžka vety). Indexy čitateľnosti však nie sú prispôsobené testom pre dospelých. Profesionál by nemal mať problémy s pochopením viacslabičných slov. V konečnom dôsledku je faktorom zložitosti sémantika textu a abstraktnosť jeho prezentácie. Indikátory založené na indexoch čitateľnosti nie sú dobre interpretované, pretože ich nemožno priamo použiť na predpovedanie času spracovania danej osoby.

Index čitateľnosti- miera určujúca zložitosť čitateľského vnímania textu. Index čitateľnosti možno vypočítať na základe niekoľkých parametrov: dĺžky viet, slov, konkrétneho počtu najfrekventovanejších (alebo zriedkavých) slov atď.

Fleschov index čitateľnosti

Najpopulárnejší takt vytvoril Rudolf Flesch, pôvodne pre angličtinu. Odhaduje zložitosť textu pomocou nasledujúceho vzorca

F R E = 206,835 − 1,015 slov spolu celkom viet − 84 , 6 slabík celkom slov , (\displaystyle FRE=206(,)835-1(,)015(\frac (\text(celkom slov))(\text(celkom vety)))-84(,)6(\frac (\text(celkový počet slabík))(\text(celkový počet slov))),)

FRE = 206,835 − 1,015 × ASL − 84,6 × ASW,

ASL - priemerná dĺžka vety v slovách (anglická priemerná dĺžka vety), ASW - priemerná dĺžka slova v slabikách (angl. priemerný počet slabík na slovo). FRE = 206,835 − 1,3 × ASL − 60,1 × ASW.

Vo všeobecnosti väčšina metód hodnotenia zložitosti textu na základe indexov čitateľnosti pre informačné a analytické dokumenty v ruštine poskytuje skóre, ktoré je mimo interpretovateľného rozsahu hodnôt aj referenčných hodnôt. Získané výsledky sa zároveň vyznačujú vysokou mierou korelácie, keďže vývojári používajú jeden matematický model lineárnej regresie, ako aj jednotné textové parametre (priemerná dĺžka slova, priemerná dĺžka vety). Indexy čitateľnosti však nie sú prispôsobené testom pre dospelých. Profesionál by nemal mať problémy s pochopením viacslabičných slov. V konečnom dôsledku je faktorom zložitosti sémantika textu a abstraktnosť jeho prezentácie. Indikátory založené na indexoch čitateľnosti nie sú dobre interpretované, pretože ich nemožno priamo použiť na predpovedanie času spracovania danej osoby.

Index čitateľnosti- miera určujúca zložitosť čitateľského vnímania textu. Index čitateľnosti možno vypočítať na základe niekoľkých parametrov: dĺžky viet, slov, konkrétneho počtu najfrekventovanejších (alebo zriedkavých) slov atď.

Fleschov index čitateľnosti

Najpopulárnejší takt vytvoril Rudolf Flesch, pôvodne pre angličtinu. Odhaduje zložitosť textu pomocou nasledujúceho vzorca

F R E = 206,835 − 1,015 slov spolu celkom viet − 84 , 6 slabík celkom slov , (\displaystyle FRE=206(,)835-1(,)015(\frac (\text(celkom slov))(\text(celkom vety)))-84(,)6(\frac (\text(celkový počet slabík))(\text(celkový počet slov))),)

FRE = 206,835 − 1,015 × ASL − 84,6 × ASW,

ASL - priemerná dĺžka vety v slovách (anglická priemerná dĺžka vety), ASW - priemerná dĺžka slova v slabikách (angl. priemerný počet slabík na slovo). FRE = 206,835 − 1,3 × ASL − 60,1 × ASW.

Vo všeobecnosti väčšina metód hodnotenia zložitosti textu na základe indexov čitateľnosti pre informačné a analytické dokumenty v ruštine poskytuje skóre, ktoré je mimo interpretovateľného rozsahu hodnôt aj referenčných hodnôt. Získané výsledky sa zároveň vyznačujú vysokou mierou korelácie, keďže vývojári používajú jeden matematický model lineárnej regresie, ako aj jednotné textové parametre (priemerná dĺžka slova, priemerná dĺžka vety). Indexy čitateľnosti však nie sú prispôsobené testom pre dospelých. Profesionál by nemal mať problémy s pochopením viacslabičných slov. V konečnom dôsledku je faktorom zložitosti sémantika textu a abstraktnosť jeho prezentácie. Indikátory založené na indexoch čitateľnosti nie sú dobre interpretované, pretože ich nemožno priamo použiť na predpovedanie času spracovania danej osoby.

Stalo sa, že v posledných rokoch sa ja osobne musím čoraz viac zaoberať rôznymi vládnymi textami, najmä zákonmi a finančnými dokumentmi, ako sú zdôvodnenia rozpočtu, a tiež sa ich snažiť preložiť z neľudského úradníckeho jazyka do slovných či vizuálnych diagramov, ktoré by boli zrozumiteľné pre mňa aj pre tých, ktorým potom hovorím o čom to je.

Počas celej tejto doby som mal osobne silný pocit, že ruský jazyk sa delí na dva poddruhy – suchý úradný úradný jazyk a „jazyk internetu“ s novovzniknutými slovami, žargónom a významnou personifikáciou. Spolu s neustálym pocitom, že „takto život nejde ďalej“ ma to všetko priviedlo najprv k hľadaniu správneho názvu toho, ako sa to celé volá, a potom k tomu, čo s tým dokážu ľudia, ktorí vedia programovať. .

Trochu histórie

18. januára 2011 prezident Obama vydal nový výkonný príkaz E.O. 1356 – Zlepšenie regulácie a revízia regulácie. Uvádza sa v ňom, že „[náš regulačný systém] musí zabezpečiť, aby boli pravidlá dostupné, dohodnuté, napísané jednoduchým jazykom a sú ľahko zrozumiteľné."

Napísané jednoduchý (zrozumiteľný) jazyk- to v žiadnom prípade nie je zaužívaný pojem ani slovný obrat. Ide o desaťročie formulovaný prístup k prekladu oficiálnych textov, dokumentov, prejavov politikov, zákonov a všetkého, čo má oficiálny význam, do podoby zrozumiteľnej obyčajným smrteľníkom.

Jasný jazyk- toto je jasné, stručné písanie navrhnuté tak, aby čitateľ porozumel textu čo najrýchlejšie a najúplnejšie. Vyhýba sa prílišným detailom, mätúcemu jazyku a žargónu.

Kým „prostý“ v angličtine znamená „jednoduchý“, ale v ruštine je slovo „zrozumiteľné“ bližšie k prekladu, môžete tiež povedať „jasný“ alebo „jednoduchý“ jazyk.

Jasný jazyk, v angličtine - plain language, fenomén, ktorý spočiatku v anglicky hovoriacich krajinách znel ako „obyčajná angličtina“, ale veľmi rýchlo prerástol do fenoménu v celosvetovom meradle s medzinárodnými.

Teraz vo svete existuje niekoľko desiatok organizácií, ktoré sa zaoberajú šírením myšlienok jazykovej zrozumiteľnosti. V mnohých krajinách sa prijímajú zákony, vydávajú sa knihy, vydávajú sa oficiálne vládne pokyny, ako písať zrozumiteľným jazykom, a každoročne sa udeľujú ceny za najzrozumiteľnejší a najnezrozumiteľnejší text.

Ale to všetko nie je v Rusku, a aby sme pochopili, čo to je vo svete, skúsme zistiť, ako to funguje.

Z čoho pozostáva prehľadnosť?

Všetko, čo je okolo zrozumiteľnosti jazyka, zapadá do dvoch pojmov – meranie a zmena.

Meraním je hodnotenie jednoduchosti textu („čitateľnosť“, „čitateľnosť“). Je to potrebné, aby sme pochopili, či je potrebné text v budúcnosti zjednodušiť alebo nie, alebo aby sme skontrolovali, ako úspešne bol text zjednodušený. Príkladom merania sú vzorce čitateľnosti, ide o špeciálne testy pre školákov/študentov, do akej miery dokážu prerozprávať prečítaný text vlastnými slovami a ďalšie spôsoby, ako zistiť, do akej miery bol text čitateľom zrozumiteľný.

Zmena je ďalším krokom po meraní. Ide o úpravu textu podľa pravidiel, prístupov a odporúčaní tak, aby bol čo najviac zjednodušený bez straty významu. Príkladom zmien sú špeciálne programy, ktoré automaticky nahrádzajú niektoré verbálne výrazy, sú to knihy s návodmi, ako správne prepisovať zložité texty, sú to slovníky „jednoduchého jazyka“, sú to testovanie textov na vekovej skupine pred publikovaním.

Jasné, že zrozumiteľnosť či nezrozumiteľnosť textu si môže subjektívne zhodnotiť sám takmer každý a mnohí dokážu aj zložité texty korigovať.

Ale povieme si, čo je nám bližšie. O spôsoboch merania a zmeny textov, ktoré sa dajú automatizovať. Najprv o tejto metóde merania zložitosti ako indexov čitateľnosti

Indexy čitateľnosti

Indexy čitateľnosti sú matematické vzorce vytvorené na posúdenie náročnosti čítania a porozumenia textom. Tieto vzorce využívajú spravidla ľahko merateľné textové metriky - počet viet, počet slov, počet písmen a slabík, na základe ktorých dávajú číselné hodnotenie buď zložitosti textu, resp. očakávané vzdelanie publika.

Test čitateľnosti Flesch-Kinkaid
Tento test bol pôvodne založený na teste Rudolpha Flasha na posúdenie zložitosti anglických textov a upravil ho Peter Kinkaid na základe zmluvy pre americké námorníctvo.

Test vychádza z tézy, že čím menej slov vo vetách a čím kratšie slová, tým je text jednoduchší.

Vzorec výpočtu je nasledujúci

A používa 3 parametre:

  • total words - total words
  • totálne vety – totálne vety
  • celkové slabiky - celkové slabiky.

Výsledkom je počet rokov amerického vysokoškolského štúdia potrebného na pochopenie textu.

Upozorňujeme, že ide len o hodnotenie slov a viet, nie však ich významu. Tento vzorec, rovnako ako všetky nasledujúce, je vyrobený podľa prirodzených textov nájdených v živote. Pretože z krátkych slov a viet sa vždy dajú napísať úplné nezmyselnosti, ktoré nikto nebude potrebovať.

Coleman-Lianov test čitateľnosti
Tento test vyvinuli Meri Coleman a T.L. Liau pre jednoduché a mechanické vyhodnotenie zložitosti textu. Na rozdiel od testu Flash-Kinkaid a mnohých metód hodnotenia čitateľnosti používa skôr písmená ako slabiky a vzorec výpočtu zohľadňuje priemerný počet písmen na slovo a priemerný počet slov na vetu.

L - priemerný počet písmen na 100 slov
S - priemerný počet viet na 100 slov

SMOG test (stupeň SMOG)
Vzorec SMOG vyvinul Harry McLaughlin v roku 1969 a publikoval ho v SMOG Grading - a New Readability Formula.

Myšlienka bola, že zložitosť textu najviac ovplyvňujú zložité slová, čo sú vždy slová s mnohými slabikami a čím viac slabík, tým je slovo zložitejšie.

Konečný vzorec stupňa SMOG bral do úvahy počet viacslabičných slov s 3 alebo viacerými slabikami a počet viet. V skutočnosti ide o odhad podielu zložených slov k počtu viet.

Tak sa stalo, že vzorec SMOG bol najviac používaný pri hodnotení zložitosti lekárskych textov a v následných štúdiách ukázal väčšiu presnosť v porovnaní s vzorcom Flash-Kinkaid.

Vzorec čitateľnosti Dale-Chale
Tento vzorec vyvinuli v roku 1948 Edgar Dale a Joan Chall na základe zoznamu 763 slov, z ktorých 80 % poznala väčšina študentov 4. ročníka, čím sa dali identifikovať ťažké slová. V roku 1995 sa objavil aktualizovaný vzorec pre rovnaký test, ktorý už zohľadňoval 3 000 rozpoznateľných slov.

Samotný vzorec sa vypočíta pomerne jednoducho

Vzhľadom na špecifiká hodnotenia sa však používala a využíva najmä na kontrolu textov pre školákov počnúc 4. ročníkom.

Automatizovaný index čitateľnosti
Tento vzorec bol publikovaný v roku 1967 a podobne ako vzorec Coleman-Liaw bol založený na hodnotení zložitosti textov podľa počtu písmen. To umožnilo použiť vzorec v elektrických písacích strojoch na meranie zložitosti textov v reálnom čase.
Iné vzorce
Okrem toho je vynechaných veľa vzorcov, ktoré sa tiež aktívne používajú:
  • Vzorec voľnej čitateľnosti
  • Index striekajúcej hmly
  • Vzorec spachovej čitateľnosti
  • Odhad čitateľnosti Raygor
  • Linsear Napíšte
  • Lexile
  • Vzorec pre ľahké čítanie Flesch
  • FORCAST

Všetky sú vypočítané na podobných princípoch a mnohé z nich sa aktívne využívajú v praxi.

Prečítajte si viac o základných vzorcoch čitateľnosti na Wikipédii: https://en.wikipedia.org/wiki/Category:Readability_tests

Napriek tomu, že existujú vzorce čitateľnosti pre rôzne jazyky - pre nemčinu, japončinu, švédčinu, portugalčinu a ďalšie, nie sú nikde také rozmanité ako pre anglický jazyk.

Na praxi

  • Americká správa sociálneho zabezpečenia vydala špeciálnu správu o dodržiavaní požiadaviek jazykovej zrozumiteľnosti a najmä jej zamestnanci používajú špeciálny softvér - StyleWriter - na pomoc pri vyhodnocovaní a zjednodušení textov. Správa o zhode SSA-2013 s jednoduchým písaním
  • Oregon Readability kontroluje a overuje všetky texty, ktoré publikujú, až do úrovne 10. ročníka - Oregon Readability
  • Virginský kódex vyžaduje povinnú úroveň čitateľnosti pre všetky zmluvy o životnom a úrazovom poistení a test čitateľnosti pomocou vzorca Flesch-Kinkaid Virginia Codex 38.2.
  • Obrovské množstvo publikácií, vrátane vládnych štúdií, sa venuje špeciálne vzorcom čitateľnosti na úrovni science.gov čitateľnosti

A čo ruský jazyk?

Ruský jazyk a teda aj texty v ruštine sa líšia od textov v angličtine v slabikách, v dĺžke viet, v počte znakov, v ktorých možno slová rozpoznať ako viacslabičné. Najmä v ruštine bývajú slová dlhšie, ale vety sú kratšie. V bežnej reči je viac viacslabičných slov a koeficienty vo vzorcoch by sa mali líšiť.

Keď som sa práve začal zaujímať o tému jazykovej zrozumiteľnosti, najprv som sa snažil nájsť publikácie na túto tému a akékoľvek príklady implementácií pre ruský jazyk. Ukázalo sa, že takmer úplne chýbali. Napriek tomu, že v Rusku existuje veľa silných tímov vo výpočtovej lingvistike, najmä v textovej analýze, ale práve v tejto oblasti zrozumiteľnosť jazyka takmer vákuum.

Keď som sa rozhodoval, čo s tým, rozhodol som sa ísť dvoma cestami naraz. Prvým spôsobom je nájsť tých, ktorí majú záujem pracovať na tejto téme, a druhým je popracovať na čitateľnosti sám v tých oblastiach, ktorým rozumiem.

Hľadanie je naše, NP “Information Culture”, každoročná súťaž Apps4Russia, tento rok sme si ako tému zobrali tému zrozumiteľnosti vo všeobecnosti. A zrozumiteľnosť ruského jazyka je jednou z nominácií. Hlavná cena v nominácii je 100 tisíc rubľov, druhé miesto 50 tisíc. Môžete ich vyhrať, ak spravíte technologický projekt v tejto oblasti. Vyviniete si vlastný vzorec, vytvoríte pokyny, budete robiť prieskum na úrovni čitateľnosti, napríklad podmienky používania na stránkach, vylepšíte existujúci vzorec, vytvoríte službu pre prehliadač na opravu alebo meranie textov alebo špeciálnu webovú službu. Možností je veľa, okrem toho, že sa nad nápadom trochu zamyslíte a uvediete do života, nie je potrebné nič viac.

Ale druhý smer je to, čo ma k tomu viedlo pred vytvorením slovníkov zrozumiteľnosti a návodov na prepisovanie zložitých jazykov. A predtým, ako sa porozprávate s úradníkmi o tom, čo hovoria v hroznej kancelárii. Najprv musíte vytvoriť vzorce na hodnotenie čitateľnosti ruského jazyka.

Keď som sa trochu pohral s modelovaním koeficientov, rýchlo som narazil na fakt, že takmer všetky americké vzorce boli vyvinuté so sprievodným testovaním na školách a univerzitách. Robili sa tak, ako sa o nich publikovali vedecké výskumy a vedecké články. Inými slovami, všetko bolo podľa vedy. Zatiaľ som nemal príležitosť ani zdroje na testovanie offline a výber správneho prístupu mi zabral veľa času.

Spočíva vo výbere správnych koeficientov pomocou textov, ktoré boli predtým identifikované pre publikum, pre ktoré sú napísané. Najzrejmejšou vecou tu bolo vziať si mimoškolské texty na čítanie. Všetky majú väčšinou presné označenie, pre akú triedu sú určené. K nim sa pridali už známe ťažko čitateľné oficiálne texty, ktoré som použil ako príklady.

Aby sa to otestovalo, bol urobený predpoklad, že existuje vzťah medzi parametrami zahrnutými vo vzorcoch hodnotenia čitateľnosti. A najmä, že čím viac slov je vo vetách, tým viac slabík obsahujú.

Táto práca bola testovaná a boli získané nasledujúce grafy:
Závislosť zložitosti textu od priemerného počtu slabík

Závislosť zložitosti textu od priemerného počtu slov vo vete

Závislosť priemerného počtu slabík na slovo od priemerného počtu slov vo vete

Celkovo sme dostali 55 textov, z ktorých sme vedeli:

  • úroveň vzdelania potrebná na ich pochopenie
  • metriky kvality pre každý text: priemerný počet slabík na slovo, priemerný počet slov na vetu, priemerný počet písmen na slovo atď.

Ďalej bolo úlohou otočiť vzorce a vyriešiť sústavu s 3 neznámymi a 55 vzorcami.
Konštanty vo vzorci boli považované za neznáme a parametre boli brané pre každý text.
Zostávala len jedna jednoduchá úloha – výber týchto konštánt.

Snáď to malo a má krásne matematické riešenie, ale ja osobne som všetko riešil hlava-nehlava podľa nasledujúcej schémy:

  1. konštantám bol priradený rozsah ich pravdepodobných hodnôt v prírastkoch 0,0001
  2. pre každú trojicu konštánt sa pomocou zvoleného vzorca vypočítali metriky čitateľnosti
  3. potom sa pre každý text vypočítala odchýlka od správnej hodnoty
  4. odchýlky pre všetky texty boli prepočítané a bola získaná priemerná odchýlka pre pole

Výsledkom bolo, že zo všetkých variantov konštánt boli vybrané tie, pre ktoré boli priemerné odchýlky minimálne.

Celé toto modelovanie a výpočty trvali niekoľko týždňov. Nakoniec však bolo možné prispôsobiť takmer všetky algoritmy do ruštiny, s jedinou výhradou, že kým neprejdú úplným experimentálnym testom, všetky významy vzorcov sú podmienené.

Uvediem výsledok pre jeden zo vzorcov - Automated Readability Index
Konštantné hodnoty sú 6,26, 0,2805 a 31,04

Keďže ruský jazyk má kratšie vety, konštanta pre priemerný počet viet na slovo je väčšia, pretože slová sú dlhšie, konštanta pre priemerný počet písmen na slovo je menšia. Navyše bol vybraný korekčný faktor, ktorý pomáha zosúladiť hodnotenie textu s úrovňou vzdelania.

Takto vyzerá zdrojový kód Pythonu na jeho výpočet.

ARI_X_GRADE = 6,26 ARI_Y_GRADE = 0,2805 ARI_Z_GRADE = 31,04 def calc_ARI_index(n_písmená, n_slov, n_odoslané): """ Metrika automatického indexu čitateľnosti (ARI) pre ruský jazyk s konštantnými parametrami 0 = "n" = 0 návrat 0 n = ARI_X_GRADE * (pohyblivé (n_písmená) / n_slov) + ARI_Y_GRADE * (pohyblivé (n_slov) / n_odoslané) - ARI_Z_GRADE návrat n

Všetky vzorce sú implementované ako online služba - ru.readability.io. Testovali sa tam vlastne všetky upravené vzorce, ktoré ďalej vyvíjam a upravujem. K dispozícii je rozhranie API a možnosť získať metriky čitateľnosti pre akýkoľvek text.

A pre každého, kto chce na Githube samostatne vyvíjať svoje vlastné vzorce, je tu celá tá školiaca vzorka textov https://github.com/infoculture/plainrussian/ a z nich vypočítaných metrík.

Jednoduché, ale nie príliš jednoduché

Indexy čitateľnosti sú skvelé a užitočné, ale sú tiež veľmi obmedzené. V západnej praxi práce na zrozumiteľnosti jazyka sa vždy spomína, že vzorce by sa mali používať opatrne, bez toho, aby sme sa na ne 100% spoliehali, pretože niekedy môžu poskytnúť chybné alebo nedostatočne presné výsledky. Preto aj napriek ich širokému používaniu vyvstáva otázka ich vývoja.

A toto je otázka, o ktorej by som tu na Habrém rád diskutoval.

Aké ďalšie prístupy môžeme použiť na posúdenie zložitosti textov?

Možno nejaké typické klerikálne rečové vzory?
Môžu byť vo vete zložité dohody?

Určite existuje niečo, čo nám umožní posunúť sa vpred.

*Obrázok podľa Creative Commons 2.0 Attribution, Sharealike
* originál – secure.flickr.com/photos/visualpunch/8746310544

Do prieskumu sa môžu zapojiť iba registrovaní užívatelia. , Prosím.