理解してもらえる文章の書き方。統計の取得と文書の読みやすさのレベルロシア語についてはどうですか?

詳細作成日：2014/04/12 20:02 更新日：2019/03/10 18:32 公開日：2014/12/04 20:02

最近、多くの学生が今日話したい問題に遭遇しました。この問題は、ロシアで学生の作品をチェックするための最も一般的なサービスであるウェブサイト antiplagiat.ru における作品の一意性のチェックに関連しています。

現在、antiplagiat.ru サイトは多数の追加を行っており、その後、一部の文書が検証システムに「疑わしい文書」として表示されています。一意性の割合は高いように見えますが、ファイルが赤く光り、作品タイトルの横に感嘆符が表示されます。これは、この技術革新の作者によれば、教師にファイルに何か問題があることを知らせるものであるとのことです。書類。

「不審な文書」アイコンをクリックすると、その文書に関する情報が開き、サイトがその文書を不審と認識した理由がわかります。実際には、その理由は次の 4 つです。

これには実際には多くの理由が考えられますが、教師は実際にこのアイコンが表示される理由を正確に理解してくれるでしょうか。

このリソースの作成者が私たちに語った内容は次のとおりです。

「この標識の出現は、この文書にさらに注意を払う必要があることを示しています。システムをバイパスしようとする試みがあった可能性があります。おそらく、テキストに外来語が多すぎるか、平均語長を超える単語が含まれている可能性があります。これは、多くの用語が使用される作品 (たとえば、化学、法学に関する作品) で可能です。大学のレポートには、この記号が表示される根拠となるテキスト統計 (読みやすさ指数、最大単語長など) が含まれています。この記号の表示と文書の強調表示は、教師にこのテキストにもっと注意を払うようにという合図を与えるだけです。しかし、実際にこのシステムを回避する形で作業が行われたことは事実ではない。作品の選定は、大学でレポートを開くことで確認できるテキスト統計の特定の指標に基づいて行われます。ただし、これらすべての指標は、このテキストを拒否するための正確な「命令」を与えるものではありません。それらは単に教師に、この作業をより注意して真剣にチェックするための理由を与えるだけです。先生がこのことをご存じない場合は、私たちに手紙を書いていただければ、そのことを先生に伝えます。教師はパーセンテージとこの兆候の外観だけに注目すべきではなく、レポートを開いて確認する必要もあります。」

このイノベーションに不満を持つ人々は次のように書いています。

次に、これが何に関係しているのか、そしてそれにどう対処するのか、この「不審な兆候」を削除してファイルを正常にする方法を考えてみましょう。

ほとんどの場合、これはテキストに、自動スペルチェックで認識されない、「社会測定」、「自由化」、「グローバルファイナンス」などの、長く複雑な外来語が含まれていることが原因で発生します。

Word で赤の下線が引かれている単語はすべてスペルが間違っています。実践が示すように、これらはすべて 10 文字を超える単語でもあります。一般に、最終的にテキストが検証で理解できるようにするには、非常に長い単語をすべて同義語に変更するか、2 ～ 3 つの単語に分割する必要があります。プログラムされて目立たなくなった「不審文書」。

それでは、ファイルを正常にして検証に合格するために何をする必要があるかをまとめてみましょう。

可読性インデックス- テキストに対する読者の認識の複雑さを決定する尺度。 可読性インデックス文の長さ、単語、最も頻繁に使用される (またはまれな) 単語の特定の数など、いくつかのパラメーターに基づいて計算できます。

フレッシュ可読性インデックス

最も人気のある尺度は、元々は英語用にルドルフフレッシュによって作成されました。次の式を使用してテキストの複雑さを評価します。

F R E = 206.835 − 1.015 (単語数合計、文数合計) − 84.6 (音節数合計、単語数合計) (\displaystyle FRE=206.835-1.015\left((\frac (\mbox(単語数))(\mbox(文数))) \right)-84.6\left((\frac (\mbox(総音節数))(\mbox(総単語数)))\right))

FRE = 206.835 − (1.015 × ASL) − (84.6 × ASW)

スケールインデックス フレス (フレッシュ・リーディング・イース・スケール)次のように配布されます。

100 ：とても読みやすいです。平均的な文の長さは 12 単語以下です。 2 音節以上の単語はありません。 65 ：分かりやすい英語。文の平均的な長さは 15 ～ 20 ワードです。平均して、単語には 2 音節があります。 30 ：少し読みにくいです。文には最大 25 語の単語が含まれます。通常は 2 音節の単語です。 0 ：非常に読みにくい。平均的な文には 37 語が含まれます。単語には平均して 2 つ以上の音節があります

英語の場合 90 ～ 100 の値は小学生向けの簡単なテキストに対応し、60 ～ 70 は学校卒業生が読めるテキストに対応し、0 ～ 30 のインデックスを持つテキストは高等教育を受けた人々を対象としています。

FRE = 206.835 − (1.3 × ASL) − (60.1 × ASW)

一般に、ロシア語の情報や分析文書の読みやすさの指標に基づいてテキストの複雑さを評価するほとんどの方法では、解釈される値の範囲と参照値の両方を超えるスコアが得られます。同時に、開発者は線形回帰の 1 つの数学モデルと均一のテキストパラメーター (平均単語長、平均文長) を使用しているため、得られる結果は高度な相関関係が特徴です。ただし、可読性指標は成人向けのテストには適応されていません。専門家であれば、多音節の単語を理解するのは難しいことではありません。結局のところ、複雑さの要因は、テキストの意味論とその表現の抽象性です。可読性指標に基づく指標は、特定の人の処理時間を予測するために直接使用できないため、十分に解釈されていません。

フレッシュ可読性インデックス

最も人気のあるメジャーは、元々は英語用にルドルフフレッシュによって作成されました。次の式を使用してテキストの複雑さを推定します。

F R E = 206.835 − 1.015 合計単語数合計文数 − 84 、6 合計音節合計単語数 , (\displaystyle FRE=206(,)835-1(,)015(\frac (\text(合計単語数))(\text(合計文)))-84(,)6(\frac (\text(総音節数))(\text(総単語数))),)

FRE = 206.835 − 1.015 × ASL − 84.6 × ASW、

ASL - 単語単位の平均文長 (英語の平均文長)、ASW - 音節単位の平均単語長 (英語。単語あたりの平均音節数）。 FRE = 206.835 − 1.3 × ASL − 60.1 × ASW。

一般に、ロシア語の情報や分析文書の読みやすさの指標に基づいてテキストの複雑さを評価するほとんどの方法では、解釈可能な値の範囲と基準値の両方から外れるスコアが得られます。同時に、開発者は線形回帰の 1 つの数学モデルと均一のテキストパラメーター (平均単語長、平均文長) を使用しているため、得られる結果は高度な相関関係が特徴です。ただし、可読性指標は成人向けのテストには適応されていません。専門家であれば、多音節の単語を理解するのは難しいことではありません。結局のところ、複雑さの要因は、テキストの意味論とその表現の抽象性です。可読性指標に基づく指標は、特定の人の処理時間を予測するために直接使用できないため、十分に解釈されていません。

フレッシュ可読性インデックス

最も人気のあるメジャーは、元々は英語用にルドルフフレッシュによって作成されました。次の式を使用してテキストの複雑さを推定します。

FRE = 206.835 − 1.015 × ASL − 84.6 × ASW、

ASL - 単語単位の平均文長 (英語の平均文長)、ASW - 音節単位の平均単語長 (英語。単語あたりの平均音節数）。 FRE = 206.835 − 1.3 × ASL − 60.1 × ASW。

偶然にも、近年、私は個人的にさまざまな政府文書、特に法律や予算の根拠などの財務文書を扱うことがますます増えており、また、それらを非人間的な事務用語から、次のような言葉や視覚的な図に翻訳しようと努めなければなりません。私にとっても、そして私がそれが何なのかを話す相手にとっても理解できることです。

この間ずっと、私は個人的に、ロシア語が 2 つの亜種に分かれていると強く感じていました。無味乾燥な聖職者の法律公用語と、新たに形成された単語、専門用語、および重要な擬人化を伴う「インターネットの言語」です。「人生はこのままではいけない」という絶え間ない感情とともに、これらすべてが私を、最初にそれが何と呼ばれるかの正しい名前を探すこと、そして次に、プログラミングの方法を知っている人がそれを使って何ができるかを探すことへと導きました。。

ちょっとした歴史

2011 年 1 月 18 日、オバマ大統領は新しい大統領令 E.O. を発令しました。 1356 - 規制と規制レビューの改善。それは、「[私たちの規制システムは]規則が利用可能であり、合意され、文書化されていることを保証しなければならない」と述べています。 簡単な言葉でと分かりやすいです。

書かれた 単純な（わかりやすい）言語- これは決して一般的な用語や比喩ではありません。これは、公式文書、文書、政治家の演説、法律、その他公式の意味が込められたあらゆるものを、凡人が理解できる形式に翻訳するために数十年かけて策定されたアプローチです。

明確な言語- これは、読者がテキストをできるだけ早く完全に理解できるように設計された明確で簡潔な文章です。過度の詳細、混乱を招く言葉や専門用語を避けます。

英語の「plain」は「単純な」という意味ですが、ロシア語では「わかりやすい」という言葉の訳語に近く、「明瞭な」または「単純な」言語とも言えます。

英語で言う明瞭な言語 - 平易な言語。当初は英語圏の国では「平易な英語」のように聞こえた現象ですが、すぐに国際的な現象として世界規模の現象に成長しました。

現在、世界には言語のわかりやすさに関する考え方の普及に取り組んでいる組織が数十あります。多くの国では、法律が可決され、本が出版され、わかりやすい言葉で書く方法に関する政府の公式指示が出版され、最もわかりやすい文章と最も理解できない文章に対して毎年賞が開催されます。

しかし、これらすべてがロシアにあるわけではありません。世界でそれが何であるかを理解するために、それがどのように機能するかを理解してみましょう。

透明性は何で構成されていますか?

言語の理解しやすさに関するすべてのものは、「測定」と「変化」という 2 つの用語に当てはまります。

測定は、テキストの簡潔さ (「読みやすさ」、「可読性」) の評価です。これは、テキストを今後簡略化する必要があるかどうかを理解するため、またはテキストがどの程度簡略化されているかを確認するために必要です。測定の例としては、可読性の計算式が挙げられます。これは、読んだテキストを自分の言葉でどれだけ語り直せるかについての学童/学生向けの特別なテストや、テキストが読者にとってどの程度理解しやすかったかを判断するその他の方法です。

変化は測定の次のステップです。これは、ルール、アプローチ、推奨事項に従ってテキストを編集し、意味を失わずにできるだけ単純化することです。変更の例としては、一部の口頭表現を自動的に置き換える特別なプログラム、複雑なテキストを正しく書き直す方法についての説明書、「単純な言語」辞書、出版前に対象年齢層を対象にテキストをテストするなどが挙げられます。

もちろん、ほとんどすべての人がテキストのわかりやすさやわかりにくさを主観的に自分で評価することができ、多くの人は複雑なテキストを修正することさえできます。

しかし、私たちに近いものについて話しましょう。自動化できるテキストの計測方法と変更方法について。まず、可読性の指標として複雑さを測定するこの方法について

可読性インデックス

可読性指数は、テキストを読んで理解することの難しさを評価するために作成された数式です。原則として、これらの式では、文の数、単語の数、文字と音節の数など、測定しやすいテキストの指標が使用されます。これらの指標に基づいて、テキストの複雑さ、または聴衆が期待する教育。

フレッシュ・キンカイド判読性テスト

このテストは元々、英語の文章の複雑さを評価するためのルドルフフラッシュのテストに基づいており、アメリカ海軍との契約に基づいてピーターキンカイドによって修正されました。

このテストは、文章内の単語が少なく、単語が短いほど、テキストが単純になるという理論に基づいています。

計算式は以下の通りです

そして、次の 3 つのパラメータを使用します。

総単語数 - 総単語数
合計文 - 合計文
総音節 - 総音節。

その結果、テキストを理解するのに必要なアメリカの大学教育の年数が計算されます。

これは単語と文章のみを評価するものであり、その意味を評価するものではないことに注意してください。この公式は、その後のすべての公式と同様に、生活の中で見られる自然の文書に従って作成されています。なぜなら、誰も必要としない短い単語や文章から、完全に無意味なものをいつでも書くことができるからです。

コールマン・リアン可読性テスト

このテストは、Meri Coleman と T.L. によって開発されました。 Liau は、テキストの複雑さを単純かつ機械的に評価します。 Flash-Kinkaid テストや多くの可読性評価方法とは異なり、音節ではなく文字が使用され、計算式では単語あたりの平均文字数と文あたりの平均単語数が考慮されます。

L - 100 単語あたりの平均文字数
S - 100 単語あたりの平均文数

SMOG試験（SMOGグレード）

SMOG 式は 1969 年にハリーマクラフリンによって開発され、「SMOG Grading - a New Readability Formula」で発表されました。

この考えは、テキストの複雑さは複雑な単語によって最も影響を受けます。複雑な単語は常に多くの音節を持つ単語であり、音節が多いほど単語はより複雑になります。

最終的な SMOG グレードの計算式では、3 音節以上の多音節単語の数と文の数が考慮されました。実際、これは文の数に対する複合語の割合の推定値です。

偶然にも、SMOG 公式は医学書の複雑さを評価する際に最もよく使用され、その後の研究では Flash-Kinkaid 公式と比較して精度が高いことが示されました。

Dale-Chale の可読性公式

この式は、763 語のリストに基づいて 1948 年にエドガーデールとジョアンチャルによって開発されました。そのリストの 80% はほとんどの 4 年生に馴染みがあり、それによって難しい単語を識別することができます。 1995 年に、同じテストの更新された公式が登場しました。この公式では、すでに 3,000 の認識可能な単語が考慮されていました。

式自体は非常に単純に計算されます

ただし、評価の特殊性により、主に小学 4 年生からの学童用テキストの確認に使用されています。

自動読みやすさインデックス

この公式は 1967 年に発表され、コールマン-リオーの公式と同様に、文字数によってテキストの複雑さを評価することに基づいていました。これにより、この式を電動タイプライターで使用して、テキストの複雑さをリアルタイムで測定できるようになりました。

その他の式

さらに、省略されている公式も多くありますが、これらも積極的に使用されています。

自由な可読性の計算式
噴霧指数
スパッシュの可読性の計算式
Raygor 可読性の推定
リンシア書き込み
レクシル
Flesch Reading 読みやすさの計算式
予報

それらはすべて同様の原理に基づいて計算されており、その多くは実際に積極的に使用されています。

基本的な可読性の公式について詳しくは、Wikipedia をご覧ください: https://en.wikipedia.org/wiki/Category:Readability_tests

ドイツ語、日本語、スウェーデン語、ポルトガル語など、さまざまな言語に読みやすさの公式があるという事実にもかかわらず、それらは英語ほど多様ではありません。

練習中

米国社会保障局は、言語理解の要件の遵守に関する特別報告書を発表しました。特に、その職員はテキストの評価と簡素化を支援するために特別なソフトウェア StyleWriter を使用しています。 SSA-2013 平文コンプライアンスレポート
Oregon Readability は、発行する 10 年生レベルまでのすべてのテキストをチェックおよび検証します - Oregon Readability
バージニア法では、すべての生命保険契約および損害保険契約に可読性レベルの義務付けと、Flesch-Kinkaid Virginia Codex 38.2 公式を使用した可読性テストが義務付けられています。
政府の研究を含む膨大な数の出版物が、特に読みやすさの公式に特化しています。science.gov 学年レベルの読みやすさ

ロシア語はどうですか？

したがって、ロシア語、およびそれに伴うロシア語のテキストは、音節、文の長さ、単語が多音節として認識される文字数の点で、英語のテキストとは異なります。特にロシア語では単語は長くなる傾向にありますが、文は短くなります。一般的な音声では多音節の単語が多く、式の係数は異なるはずです。

言語の理解可能性というテーマに興味を持ち始めたばかりのとき、私はまずこのトピックに関する出版物とロシア語の実装例を見つけようとしました。それらはほぼ完全に存在していないことが判明しました。ロシアには計算言語学、特にテキスト分析の分野で強力なチームがたくさんあるという事実にもかかわらず、正確にはこの分野で 言語のわかりやすさほぼ真空状態。

これをどうするかを決めるとき、私は一度に 2 つの方向に進むことにしました。 1 つ目の方法は、このトピックに取り組むことに興味のある人を見つけることです。もう 1 つは、私が理解している分野で自分自身が読みやすさに取り組むことです。

検索は私たちのものです。NP「情報文化」、毎年恒例のコンテスト Apps4Russia では、今年は一般的なわかりやすさをテーマにしました。ロシア語の分かりやすさも候補の一つです。ノミネートの主な賞金は10万ルーブル、2位は5万ルーブルです。この分野で技術プロジェクトを起こせば、彼らを獲得できるでしょう。独自の数式を開発し、指示を作成し、サイトの利用規約などの可読性のレベルを調査し、既存の数式を改善し、ブラウザがテキストを修正または測定するためのサービス、または特別な Web サービスを作成します。選択肢はたくさんありますが、アイデアについて少し考えてそれを実現すること以外は何も必要ありません。

しかし、理解可能性辞書や複雑な言語を書き直すための説明書を作成する前に、2 番目の方向性が私をこの方向に導きました。そして、ひどいオフィスでの発言について役人と話す前に。まず、ロシア語の読みやすさを評価するための式を作成する必要があります。

係数のモデリングを少しいじってみたところ、ほとんどすべてのアメリカの公式が学校や大学でのテストを伴って開発されているという事実にすぐに気づきました。これらは科学研究として行われ、それに関する科学論文が出版されました。つまり、すべては科学に従っていたのです。オフラインテストを実施する機会やリソースがまだなく、適切なアプローチを選択するのに多くの時間がかかりました。

これは、対象読者向けに事前に特定されたテキストを使用して、正しい係数を選択することから構成されます。ここで最も明白だったのは、課外授業でテキストを読むことでした。通常、それらのすべてには、どのクラスを対象としているかを正確に示すマークが付けられています。これらに、私が例として使用した既知の読みにくい公式テキストを追加しました。

これをテストするために、可読性評価式に含まれるパラメータ間に関係があるという仮定が立てられました。そして特に、文に含まれる単語が多いほど、含まれる音節も多くなります。

この論文はテストされ、次のグラフが得られました。
テキストの複雑さの平均音節数への依存性

テキストの複雑さの文内の平均単語数への依存性

単語ごとの平均音節数と文内の平均単語数の依存性

合計 55 件のテキストが得られ、そこから次のことが分かりました。

それらを理解するために必要な教育レベル
各テキストの品質指標: 単語あたりの平均音節数、文あたりの平均単語数、単語あたりの平均文字数など

次の課題は、公式を逆にして、3 つの未知数と 55 の公式を含む系を解くことでした。
式内の定数は未知とみなされ、パラメータはテキストごとに取得されました。
残っているのは、これらの定数を選択するという簡単な作業だけです。

おそらく、美しい数学的解決策があったし、今でも存在しているのでしょうが、私は個人的に、次のスキームに従ってすべてを正面から解決しました。

定数には、0.0001 ずつ増加する確率値の範囲が与えられました。
定数のトリプルごとに、選択した式を使用して可読性メトリクスが計算されました。
次に、正しい値からの偏差がテキストごとに計算されました。
すべてのテキストの偏差が再計算され、配列の平均偏差が取得されました。

その結果、すべての定数のバリエーションの中から、平均偏差が最小となるものが選択されました。

このすべてのモデリングと計算には数週間かかりました。しかし最終的には、完全な実験テストに合格するまでは式のすべての意味が条件付きであるという唯一の注意点を除いて、ほぼすべてのアルゴリズムをロシア語に適応させることができました。

数式の 1 つである Automated Readability Index の結果を示します。
定数値は6.26、0.2805、31.04です。

ロシア語は文が短いため、単語あたりの平均文数の定数は大きくなりますが、単語が長いため、単語あたりの平均文字数の定数は小さくなります。さらに、テキストの評価を教育レベルに合わせるための補正係数が選択されています。

計算用の Python ソースコードは次のようになります。

ARI_X_GRADE = 6.26 ARI_Y_GRADE = 0.2805 ARI_Z_GRADE = 31.04 def calc_ARI_index(n_letters, n_words, n_sent): """ 定数パラメーター """ を持つロシア語の自動可読性インデックス (ARI) メトリック (n_words == 0 または n_sent == 0 の場合): return 0 n = ARI_X_GRADE * (float(n_letters) / n_words) + ARI_Y_GRADE * (float(n_words) / n_sent) - ARI_Z_GRADE return n

すべての数式はオンラインサービス - ru.readability.io として実装されます。実際、適応されたすべてのフォーミュラはそこでテストされ、私は開発と調整を続けています。 API があり、あらゆるテキストの可読性メトリクスを取得する機能があります。

そして、Github で独自の数式を独自に開発したい人全員のために、テキストのトレーニングサンプル https://github.com/infoculture/plainrussian/ とそこから計算されたメトリクスがすべて揃っています。

シンプルだけどシンプルすぎない

可読性インデックスはクールで便利ですが、非常に制限されています。言語の理解しやすさに取り組む西洋の実践では、公式は誤った結果や不正確な結果をもたらす可能性があるため、100% 信頼せずに慎重に使用する必要があることが常に述べられています。したがって、広く使用されているにもかかわらず、その開発の問題が生じます。

これが私がここでハブレについて議論したい問題です。

テキストの複雑さを評価するために他にどのようなアプローチを使用できますか?

おそらく典型的な事務的な発話パターンでしょうか？
文の中に複雑な合意が存在する可能性はありますか?

きっと、前に進むきっかけとなるものがあるはずです。

* 画像はクリエイティブコモンズ 2.0 帰属、共有に基づく
* オリジナル - secure.flickr.com/photos/visualpunch/8746310544

登録ユーザーのみがアンケートに参加できます。、お願いします。