المقابس والمفاتيح

كيفية كتابة النص بحيث يكون مفهوما. الحصول على الإحصائيات ومستوى سهولة قراءة الوثيقة ماذا عن اللغة الروسية؟

تم إنشاء التفاصيل: 04/12/2014 20:02 تم التحديث: 03/10/2019 18:32 تم النشر: 04/12/2014 20:02

واجه العديد من الطلاب مؤخرًا مشكلة أود التحدث عنها اليوم. ترتبط هذه المشكلة بالتحقق من التفرد في الخدمة الأكثر شيوعًا للتحقق من عمل الطلاب في روسيا - موقع antiplagiat.ru.

حاليًا، قام موقع antiplagiat.ru بإجراء عدد من الإضافات، وبعدها يتم عرض بعض المستندات في نظام التحقق باسم "مستند مشبوه". ويبدو أن نسبة التفرد قد تكون عالية، لكن الملف يتوهج باللون الأحمر ويتم عرض علامة تعجب بجوار عنوان العمل، والتي، وفقًا لمؤلفي هذا الابتكار، تشير إلى المعلم بوجود خطأ ما في العمل. وثيقة.

إذا قمت بالنقر على أيقونة "المستند المشبوه"، سيتم فتح معلومات حول المستند يمكنك من خلالها معرفة سبب تعريف الموقع بالمستند على أنه مشبوه، في الواقع هناك أربعة منها:

يمكن أن يكون هناك بالفعل الكثير من الأسباب المرتبطة بهذا، ولكن هل سيهتم المعلم حقًا ويكتشف السبب الدقيق لظهور هذا الرمز.

إليك ما أخبرنا به منشئو هذا المورد:

"إن ظهور هذه العلامة يشير إلى أننا بحاجة إلى إيلاء المزيد من الاهتمام لهذه الوثيقة. ربما كانت هناك محاولات لتجاوز النظام. ربما يحتوي النص على عدد كبير جدًا من الكلمات الأجنبية، أو كلمات تم تجاوز متوسط ​​طول الكلمة فيها. وهذا ممكن في الأعمال التي تستخدم فيها مصطلحات كثيرة (أعمال الكيمياء والفقه على سبيل المثال). يحتوي تقرير الجامعة على إحصائيات نصية تظهر على أساسها هذه العلامة (مؤشر سهولة القراءة، الحد الأقصى لطول الكلمة، إلخ). إن ظهور هذه العلامة وإبراز الوثيقة لا يعطي إلا إشارة للمعلم لإيلاء المزيد من الاهتمام لهذا النص. ومع ذلك، فليس من الواقع أن العمل قد تم بالفعل بطريقة تتجاوز النظام. يتم اختيار الأعمال على أساس مؤشرات معينة في إحصائيات النص، والتي يمكن رؤيتها من خلال فتح التقرير في الجامعة. لكن كل هذه المؤشرات لا تعطي «أمراً» محدداً برفض هذا النص. إنهم ببساطة يمنحون المعلم سببًا ليكون أكثر انتباهاً وجدية في التحقق من هذا العمل. إذا كان المعلم لا يعرف ذلك، فيمكنه أن يكتب لنا رسالة وسنخبره بذلك. ولا ينبغي للمعلم أن يركز فقط على النسب وظهور هذه العلامة، بل يجب عليه أيضًا فتح التقرير والاطلاع عليه.

إليك ما يكتبه الأشخاص غير الراضين عن هذا الابتكار:

دعونا الآن نحاول معرفة ما قد يكون مرتبطًا به وكيفية التعامل معه، وكيفية إزالة هذه "العلامة المشبوهة" وجعل ملفنا طبيعيًا.

يحدث هذا غالبًا بسبب حقيقة أن النص يحتوي على كلمات طويلة أو معقدة أو أجنبية، على سبيل المثال، "القياس الاجتماعي"، "الليبرالية"، GlobalFinance وغيرها، والتي لا يتم التعرف عليها عن طريق التدقيق الإملائي التلقائي.

كل الكلمات التي يضع Word تحتها باللون الأحمر بها أخطاء إملائية. كما تظهر الممارسة، هذه أيضًا جميع الكلمات التي يزيد طولها عن 10 أحرف؛ بشكل عام، سنحتاج إلى تغيير جميع الكلمات الطويلة جدًا إلى مرادفات أو تقسيمها إلى 2-3 كلمات بحيث يصبح النص في النهاية مفهومًا للتحقق البرنامج ولم يعد يبرز "مستند مشبوه".

لذلك دعونا نلخص ما يتعين علينا القيام به لجعل الملف طبيعيًا واجتياز عملية التحقق.

مؤشر سهولة القراءة- مقياس لتحديد مدى تعقيد تصور القارئ للنص. مؤشر سهولة القراءةيمكن حسابها بناءً على عدة معايير: طول الجمل، والكلمات، والعدد المحدد للكلمات الأكثر شيوعًا (أو النادرة)، وما إلى ذلك.

مؤشر قابلية القراءة Flesch

تم إنشاء المقياس الأكثر شعبية بواسطة رودولف فليش، في الأصل للغة الإنجليزية. يتم تقييم مدى تعقيد النص باستخدام الصيغة التالية:

F R E = 206.835 − 1.015 (إجمالي الكلمات إجمالي الجمل) − 84.6 (إجمالي المقاطع إجمالي الكلمات) (\displaystyle FRE=206.835-1.015\left((\frac (\mbox(إجمالي الكلمات))(\mbox(إجمالي الجمل))) \يمين)-84.6\يسار((\frac (\mbox(إجمالي المقاطع))(\mbox(إجمالي الكلمات)))\يمين))

FRE = 206.835 - (1.015 × ASL) - (84.6 × ASW)

مؤشر النطاق فريز (مقياس سهولة قراءة اللحم)موزعة على النحو التالي:

100 : من السهل جدا القراءة. متوسط ​​طول الجملة هو 12 كلمة أو أقل. لا توجد كلمات تحتوي على أكثر من مقطعين. 65 : الانجليزية عادي. متوسط ​​طول الجملة يتراوح بين 15 إلى 20 كلمة. في المتوسط، تحتوي الكلمات على مقطعين. 30 : من الصعب قليلا القراءة. الجمل تحتوي على ما يصل إلى 25 كلمة. عادة كلمات مكونة من مقطعين. 0 : من الصعب جدا القراءة. متوسط ​​الجملة بها 37 كلمة. تحتوي الكلمة في المتوسط ​​على أكثر من مقطعين

للغة الإنجليزية القيمة 90-100 تتوافق مع نص سهل لأطفال المدارس الابتدائية، 60-70 - نص يمكن لخريجي المدارس قراءته، والنصوص ذات المؤشر 0-30 مخصصة للأشخاص الحاصلين على تعليم عالٍ.

FRE = 206.835 - (1.3 × ASL) - (60.1 × ASW)

بشكل عام، فإن معظم طرق تقييم تعقيد النص بناءً على مؤشرات سهولة القراءة للمعلومات والوثائق التحليلية باللغة الروسية تعطي درجات تتجاوز نطاق القيم المفسرة والقيم المرجعية. في الوقت نفسه، تتميز النتائج التي تم الحصول عليها بدرجة عالية من الارتباط، حيث يستخدم المطورون نموذجا رياضيا واحدا للانحدار الخطي، بالإضافة إلى معلمات نصية موحدة (متوسط ​​\u200b\u200bطول الكلمة، متوسط ​​\u200b\u200bطول الجملة). ومع ذلك، فإن مؤشرات سهولة القراءة لا تتكيف مع اختبارات البالغين. لا ينبغي أن يواجه المحترف صعوبة في فهم الكلمات متعددة المقاطع. وفي نهاية المطاف، فإن عامل التعقيد هو دلالات النص وتجريد عرضه. لا يتم تفسير المؤشرات المستندة إلى فهارس سهولة القراءة بشكل جيد لأنه لا يمكن استخدامها مباشرة للتنبؤ بوقت المعالجة لشخص معين.

مؤشر سهولة القراءة- مقياس لتحديد مدى تعقيد تصور القارئ للنص. مؤشر سهولة القراءةيمكن حسابها بناءً على عدة معايير: طول الجمل، والكلمات، والعدد المحدد للكلمات الأكثر شيوعًا (أو النادرة)، وما إلى ذلك.

مؤشر قابلية القراءة Flesch

تم إنشاء المقياس الأكثر شيوعًا بواسطة Rudolf Flesch، وهو في الأصل باللغة الإنجليزية. ويقدر مدى تعقيد النص باستخدام الصيغة التالية

F R E = 206.835 − 1.015 مجموع الكلمات مجموع الجمل − 84 , 6 مجموع المقاطع مجموع الكلمات , (\displaystyle FRE=206(,)835-1(,)015(\frac (\text(مجموع الكلمات))(\text(total الجمل)))-84(,)6(\frac (\text(مجموع المقاطع))(\text(مجموع الكلمات)))،)

فري = 206.835 - 1.015 × ASL - 84.6 × ASW،

ASL - متوسط ​​طول الجملة بالكلمات (متوسط ​​طول الجملة باللغة الإنجليزية)، ASW - متوسط ​​طول الكلمة في المقاطع (الإنجليزية. متوسط ​​عدد المقاطع في الكلمة الواحدة) . FRE = 206.835 - 1.3 × ASL - 60.1 × ASW.

بشكل عام، توفر معظم طرق تقييم تعقيد النص بناءً على مؤشرات سهولة القراءة للمعلومات والوثائق التحليلية باللغة الروسية درجات تقع خارج نطاق القيم القابلة للتفسير والقيم المرجعية. في الوقت نفسه، تتميز النتائج التي تم الحصول عليها بدرجة عالية من الارتباط، حيث يستخدم المطورون نموذجا رياضيا واحدا للانحدار الخطي، بالإضافة إلى معلمات نصية موحدة (متوسط ​​\u200b\u200bطول الكلمة، متوسط ​​\u200b\u200bطول الجملة). ومع ذلك، فإن مؤشرات سهولة القراءة لا تتكيف مع اختبارات البالغين. لا ينبغي أن يواجه المحترف صعوبة في فهم الكلمات متعددة المقاطع. وفي نهاية المطاف، فإن عامل التعقيد هو دلالات النص وتجريد عرضه. لا يتم تفسير المؤشرات المستندة إلى فهارس سهولة القراءة بشكل جيد لأنه لا يمكن استخدامها مباشرة للتنبؤ بوقت المعالجة لشخص معين.

مؤشر سهولة القراءة- مقياس لتحديد مدى تعقيد تصور القارئ للنص. مؤشر سهولة القراءةيمكن حسابها بناءً على عدة معايير: طول الجمل، والكلمات، والعدد المحدد للكلمات الأكثر شيوعًا (أو النادرة)، وما إلى ذلك.

مؤشر قابلية القراءة Flesch

تم إنشاء المقياس الأكثر شيوعًا بواسطة Rudolf Flesch، وهو في الأصل باللغة الإنجليزية. ويقدر مدى تعقيد النص باستخدام الصيغة التالية

F R E = 206.835 − 1.015 مجموع الكلمات مجموع الجمل − 84 , 6 مجموع المقاطع مجموع الكلمات , (\displaystyle FRE=206(,)835-1(,)015(\frac (\text(مجموع الكلمات))(\text(total الجمل)))-84(,)6(\frac (\text(مجموع المقاطع))(\text(مجموع الكلمات)))،)

فري = 206.835 - 1.015 × ASL - 84.6 × ASW،

ASL - متوسط ​​طول الجملة بالكلمات (متوسط ​​طول الجملة باللغة الإنجليزية)، ASW - متوسط ​​طول الكلمة في المقاطع (الإنجليزية. متوسط ​​عدد المقاطع في الكلمة الواحدة) . FRE = 206.835 - 1.3 × ASL - 60.1 × ASW.

بشكل عام، توفر معظم طرق تقييم تعقيد النص بناءً على مؤشرات سهولة القراءة للمعلومات والوثائق التحليلية باللغة الروسية درجات تقع خارج نطاق القيم القابلة للتفسير والقيم المرجعية. في الوقت نفسه، تتميز النتائج التي تم الحصول عليها بدرجة عالية من الارتباط، حيث يستخدم المطورون نموذجا رياضيا واحدا للانحدار الخطي، بالإضافة إلى معلمات نصية موحدة (متوسط ​​\u200b\u200bطول الكلمة، متوسط ​​\u200b\u200bطول الجملة). ومع ذلك، فإن مؤشرات سهولة القراءة لا تتكيف مع اختبارات البالغين. لا ينبغي أن يواجه المحترف صعوبة في فهم الكلمات متعددة المقاطع. وفي نهاية المطاف، فإن عامل التعقيد هو دلالات النص وتجريد عرضه. لا يتم تفسير المؤشرات المستندة إلى فهارس سهولة القراءة بشكل جيد لأنه لا يمكن استخدامها مباشرة للتنبؤ بوقت المعالجة لشخص معين.

لقد حدث أنه في السنوات الأخيرة، اضطررت شخصيًا إلى التعامل أكثر فأكثر مع النصوص الحكومية المختلفة، وخاصة القوانين والوثائق المالية مثل مبررات الميزانية، وأيضًا محاولة ترجمتها من اللغة الكتابية اللاإنسانية إلى كلمات أو رسوم بيانية مرئية يمكن ترجمتها مفهومة بالنسبة لي ولأولئك الذين سأخبرهم بعد ذلك عن ماهيته.

خلال كل هذا الوقت، كان لدي شخصيا شعور قوي بأن اللغة الروسية مقسمة إلى نوعين فرعيين - اللغة الرسمية القانونية الكتابية الجافة و "لغة الإنترنت"، مع الكلمات التي تم تشكيلها حديثا، والمصطلحات والتجسيد المهم. ومع الشعور الدائم بأن "الحياة لا يمكن أن تستمر على هذا النحو"، كل هذا قادني، أولاً، إلى البحث عن الاسم الصحيح لكل ما يسمى، ثم إلى ما يمكن أن يفعله الأشخاص الذين يعرفون كيفية البرمجة. .

قليلا من التاريخ

في 18 يناير 2011، أصدر الرئيس أوباما أمرًا تنفيذيًا جديدًا، E.O. 1356 - تحسين التنظيم والمراجعة التنظيمية. وينص على أن "[نظامنا التنظيمي] يجب أن يضمن أن القواعد متاحة ومتفق عليها ومكتوبة بلغة بسيطة، ويمكن فهمها بسهولة."

مكتوب لغة بسيطة (مفهومة).- هذا ليس مصطلحًا شائعًا أو شكلًا من أشكال الكلام بأي حال من الأحوال. وهذا نهج صيغ على مدى عقود من الزمن لترجمة النصوص والوثائق الرسمية وخطب السياسيين والقوانين وكل ما يمتلئ بالمعنى الرسمي إلى شكل يفهمه مجرد البشر.

لغة واضحة- هذه كتابة واضحة وموجزة مصممة لضمان فهم القارئ للنص في أسرع وقت وعلى أكمل وجه ممكن. إنه يتجنب التفاصيل المفرطة واللغة المربكة والمصطلحات.

في حين أن كلمة "عادي" في اللغة الإنجليزية تعني "بسيط"، لكن في اللغة الروسية كلمة "مفهومة" أقرب إلى الترجمة، ويمكنك أيضًا قول لغة "واضحة" أو "بسيطة".

لغة واضحة، باللغة الإنجليزية - لغة واضحة، وهي ظاهرة بدت في البداية مثل "الإنجليزية البسيطة" في البلدان الناطقة باللغة الإنجليزية، ولكنها تطورت بسرعة كبيرة لتصبح ظاهرة على نطاق عالمي مع ظاهرة دولية.

يوجد الآن في العالم عشرات المنظمات التي تعمل على نشر أفكار فهم اللغة. في العديد من البلدان، يتم إصدار القوانين، ونشر الكتب، ونشر التعليمات الحكومية الرسمية حول كيفية الكتابة بلغة مفهومة، ويتم منح جوائز سنوية للنص الأكثر فهمًا والأكثر غموضًا.

ولكن كل هذا ليس في روسيا، ولكي نفهم ما هو عليه في العالم، دعونا نحاول معرفة كيف يعمل.

مما يتكون الوضوح؟

كل ما يدور حول قابلية فهم اللغة يتناسب مع مصطلحين - القياس والتغيير.

القياس هو تقييم النص من حيث البساطة ("سهولة القراءة"، "سهولة القراءة"). وهو ضروري لفهم ما إذا كان النص بحاجة إلى التبسيط في المستقبل أم لا، أو للتحقق من مدى نجاح تبسيط النص. من أمثلة القياس صيغ سهولة القراءة، وهي اختبارات خاصة لأطفال المدارس/الطلاب حول مدى قدرتهم على إعادة سرد النص الذي قرأوه بكلماتهم الخاصة وطرق أخرى لتحديد مدى فهم النص للقراء.

التغيير هو الخطوة التالية بعد القياس. وهو تحرير النص وفق القواعد والمناهج والتوصيات بحيث يتم تبسيطه قدر الإمكان دون فقدان معناه. من أمثلة التغييرات البرامج الخاصة التي تحل محل بعض التعبيرات اللفظية تلقائيًا، وهي عبارة عن كتب تعليمات حول كيفية إعادة كتابة النصوص المعقدة بشكل صحيح، وهي قواميس "لغة بسيطة"، وهي عبارة عن اختبار للنصوص على جمهور عمري قبل النشر.

بالطبع، يمكن للجميع تقريبًا تقييم مدى وضوح النص أو عدم فهمه بشكل شخصي، ويمكن للكثيرين أيضًا تصحيح النصوص المعقدة.

لكننا سنتحدث عما هو أقرب إلينا. حول طرق قياس وتغيير النصوص التي يمكن أتمتتها. أولاً، حول هذه الطريقة لقياس التعقيد كمؤشرات سهولة القراءة

مؤشرات سهولة القراءة

فهارس سهولة القراءة هي صيغ رياضية تم إنشاؤها لتقييم صعوبة قراءة النصوص وفهمها. كقاعدة عامة، تستخدم هذه الصيغ مقاييس نصية سهلة القياس - عدد الجمل، وعدد الكلمات، وعدد الحروف والمقاطع، والتي على أساسها تعطي تقييمًا رقميًا لمدى تعقيد النص أو التعليم المتوقع للجمهور.

اختبار قراءة Flesch-Kinkaid
اعتمد هذا الاختبار في الأصل على اختبار رودولف فلاش لتقييم مدى تعقيد النصوص الإنجليزية وتم تعديله بواسطة بيتر كينكيد بموجب عقد مع البحرية الأمريكية.

يعتمد الاختبار على فرضية مفادها أنه كلما قل عدد الكلمات في الجمل وكلما كانت الكلمات أقصر، كان النص أبسط.

صيغة الحساب هي كما يلي

ويستخدم 3 معلمات:

  • مجموع الكلمات - مجموع الكلمات
  • مجموع الجمل - مجموع الجمل
  • إجمالي المقاطع - إجمالي المقاطع.

والنتيجة هي عدد سنوات التعليم الجامعي الأمريكي المطلوب لفهم النص.

يرجى ملاحظة أن هذا مجرد تقييم للكلمات والجمل، ولكن ليس معناها. هذه الصيغة، مثل كل الصيغ اللاحقة، مصنوعة وفقا للنصوص الطبيعية الموجودة في الحياة. لأنه يمكنك دائمًا كتابة معنى كامل من الكلمات والجمل القصيرة التي لن يحتاجها أحد.

اختبار القراءة كولمان ليان
تم تطوير هذا الاختبار بواسطة ميري كولمان وت.ل. Liau للتقييم البسيط والميكانيكي لتعقيد النص. على عكس اختبار Flash-Kinkaid والعديد من طرق تقييم قابلية القراءة، فإنه يستخدم الحروف بدلاً من المقاطع، وتأخذ صيغة الحساب في الاعتبار متوسط ​​عدد الأحرف لكل كلمة ومتوسط ​​عدد الكلمات لكل جملة.

L - متوسط ​​عدد الحروف لكل 100 كلمة
S - متوسط ​​عدد الجمل لكل 100 كلمة

اختبار الضباب الدخاني (درجة الضباب الدخاني)
تم تطوير صيغة SMOG بواسطة Harry McLaughlin في عام 1969 وتم نشرها في SMOG Grading - صيغة جديدة لقابلية القراءة.

وكانت الفكرة هي أن تعقيد النص يتأثر أكثر بالكلمات المعقدة، والتي تكون دائمًا كلمات تحتوي على العديد من المقاطع، وكلما زادت المقاطع، زادت تعقيد الكلمة.

أخذت صيغة درجة SMOG النهائية في الاعتبار عدد الكلمات متعددة المقاطع، والتي تحتوي على 3 مقاطع لفظية أو أكثر، وعدد الجمل. وهو في الواقع تقدير لنسبة الكلمات المركبة إلى عدد الجمل.

لقد حدث أن صيغة SMOG كانت الأكثر استخدامًا في تقييم مدى تعقيد النصوص الطبية وفي الدراسات اللاحقة أظهرت دقة أكبر مقارنة بصيغة Flash-Kinkaid.

صيغة قراءة ديل-شال
تم تطوير هذه الصيغة في عام 1948 من قبل إدغار ديل وجوان تشال بناءً على قائمة مكونة من 763 كلمة، 80% منها كانت مألوفة لمعظم طلاب الصف الرابع، وبالتالي تحديد الكلمات الصعبة. في عام 1995، ظهرت صيغة محدثة لنفس الاختبار، والتي أخذت في الاعتبار بالفعل 3000 كلمة يمكن التعرف عليها.

يتم حساب الصيغة نفسها بكل بساطة

ومع ذلك، نظرًا لخصائص التقييم، فقد تم استخدامه بشكل أساسي ويستخدم للتحقق من النصوص لأطفال المدارس بدءًا من الصف الرابع.

مؤشر سهولة القراءة الآلي
تم نشر هذه الصيغة في عام 1967، ومثل صيغة كولمان-لياو، كانت تعتمد على تقييم مدى تعقيد النصوص من خلال عدد الحروف. سمح هذا باستخدام الصيغة في الآلات الكاتبة الكهربائية لقياس مدى تعقيد النصوص في الوقت الفعلي.
صيغ أخرى
بالإضافة إلى ذلك، هناك العديد من الصيغ التي تم استبعادها والتي يتم استخدامها أيضًا بشكل نشط:
  • صيغة القراءة الحرة
  • مؤشر الضباب Gunning
  • صيغة سهولة القراءة Spache
  • تقدير إمكانية القراءة Raygor
  • كتابة لينسير
  • ليكسيلي
  • Flesch صيغة سهولة القراءة القراءة
  • توقع

يتم حسابها جميعًا وفقًا لمبادئ مماثلة ويتم استخدام العديد منها بنشاط في الممارسة العملية.

اقرأ المزيد عن صيغ سهولة القراءة الأساسية على ويكيبيديا: https://en.wikipedia.org/wiki/Category:Readability_tests

على الرغم من وجود صيغ سهلة القراءة للغات مختلفة - الألمانية واليابانية والسويدية والبرتغالية وغيرها، فهي ليست متنوعة مثل اللغة الإنجليزية في أي مكان.

في الممارسة

  • أصدرت إدارة الضمان الاجتماعي الأمريكية تقريرًا خاصًا حول الامتثال لمتطلبات فهم اللغة، وعلى وجه الخصوص، يستخدم موظفوها برنامجًا خاصًا - StyleWriter - للمساعدة في تقييم النصوص وتبسيطها. تقرير الالتزام بالكتابة العادي SSA-2013
  • تقوم Oregon Readability بفحص جميع النصوص التي ينشرونها والتحقق منها حتى مستوى الصف العاشر - Oregon Readability
  • يتطلب قانون فيرجينيا مستوى إلزاميًا للقراءة لجميع عقود التأمين على الحياة والحوادث واختبارًا للقراءة باستخدام صيغة Flesch-Kinkaid Virginia Codex 38.2.
  • تم تخصيص عدد كبير من المنشورات، بما في ذلك الدراسات الحكومية، خصيصًا لصيغ سهولة القراءة في موقع science.gov لقابلية القراءة على مستوى الصف الدراسي

ماذا عن اللغة الروسية؟

اللغة الروسية، وبالتالي، تختلف النصوص باللغة الروسية عن النصوص باللغة الإنجليزية في المقاطع، في طول الجمل، في عدد الأحرف، حيث يمكن التعرف على الكلمات على أنها متعددة المقاطع. في اللغة الروسية على وجه الخصوص، تميل الكلمات إلى أن تكون أطول، لكن الجمل أقصر. في الكلام الشائع هناك عدد أكبر من الكلمات متعددة المقاطع ويجب أن تكون المعاملات في الصيغ مختلفة.

عندما بدأت للتو في الاهتمام بموضوع فهم اللغة، حاولت أولا العثور على منشورات حول هذا الموضوع وأي أمثلة على تطبيقات اللغة الروسية. اتضح أنهم كانوا غائبين تماما تقريبا. على الرغم من وجود العديد من الفرق القوية في اللغويات الحاسوبية في روسيا، وخاصة في تحليل النصوص، ولكن على وجه التحديد في هذا المجال سهولة فهم اللغةفراغ تقريبا.

عندما قررت ما يجب فعله بهذا الأمر، قررت أن أسلك طريقين في وقت واحد. الطريقة الأولى هي العثور على المهتمين بالعمل على هذا الموضوع، والطريقة الأخرى هي العمل على سهولة القراءة بنفسي في تلك المجالات التي أفهمها.

البحث لنا، NP "ثقافة المعلومات"، المسابقة السنوية Apps4russia، اتخذنا هذا العام موضوع سهولة الفهم بشكل عام كموضوع لها. وفهم اللغة الروسية هو أحد الترشيحات. الجائزة الرئيسية في الترشيح 100 ألف روبل، المركز الثاني 50 ألف. يمكنك الفوز بها إذا قمت بإنشاء مشروع تكنولوجي في هذا المجال. سوف تقوم بتطوير الصيغة الخاصة بك، وإصدار التعليمات، وإجراء الأبحاث على مستوى سهولة القراءة، على سبيل المثال، شروط الاستخدام على المواقع، وتحسين الصيغة الموجودة، وتقديم خدمة للمتصفح لتصحيح النصوص أو قياسها، أو خدمة ويب خاصة. هناك العديد من الخيارات، وليس هناك حاجة إلى أي شيء آخر سوى التفكير قليلاً في الفكرة وتجسيدها على أرض الواقع.

لكن الاتجاه الثاني هو الذي قادني إلى ذلك قبل إنشاء قواميس الفهم وتعليمات إعادة كتابة اللغات المعقدة. وقبل أن تتحدث مع المسؤولين عما يقولونه في المكتب الرهيب. بادئ ذي بدء، تحتاج إلى إنشاء صيغ لتقييم سهولة القراءة للغة الروسية.

وبعد التلاعب قليلاً بنمذجة المعاملات، توصلت بسرعة إلى حقيقة مفادها أن جميع الصيغ الأمريكية تقريبًا تم تطويرها مع اختبارات مصاحبة في المدارس والجامعات. وتم ذلك كما نشرت عنها أبحاث علمية ومقالات علمية. وبعبارة أخرى، كان كل شيء وفقا للعلم. لم تتح لي الفرصة أو الموارد بعد لإجراء الاختبار دون اتصال بالإنترنت واستغرق الأمر الكثير من الوقت لاختيار النهج الصحيح.

ويتكون من اختيار المعاملات الصحيحة باستخدام النصوص التي تم تحديدها مسبقًا للجمهور الذي كتبت من أجله. كان الشيء الأكثر وضوحًا هنا هو أخذ نصوص القراءة اللامنهجية. عادةً ما يكون لكل منهم علامة دقيقة للفئة المخصصة له. وقد أضيفت إليها النصوص الرسمية المعروفة والتي يصعب قراءتها والتي استخدمتها كأمثلة.

ولاختبار ذلك، تم افتراض وجود علاقة بين المعلمات المشاركة في صيغ تقييم قابلية القراءة. وعلى وجه الخصوص، كلما زاد عدد الكلمات في الجمل، زادت المقاطع التي تحتوي عليها.

تم اختبار هذه الرسالة وتم الحصول على الرسوم البيانية التالية:
اعتماد تعقيد النص على متوسط ​​عدد المقاطع

اعتماد تعقيد النص على متوسط ​​عدد الكلمات في الجملة

اعتماد متوسط ​​عدد المقاطع في الكلمة الواحدة على متوسط ​​عدد الكلمات في الجملة

في المجموع، حصلنا على 55 نصًا عرفنا منها:

  • المستوى التعليمي المطلوب لفهمها
  • مقاييس الجودة لكل نص: متوسط ​​عدد المقاطع في كل كلمة، ومتوسط ​​عدد الكلمات في كل جملة، ومتوسط ​​عدد الحروف في كل كلمة، وما إلى ذلك

بعد ذلك، كانت المهمة هي عكس الصيغ وحل نظام يحتوي على 3 مجاهيل و55 صيغة.
واعتبرت الثوابت في الصيغة غير معروفة، وتم أخذ المعلمات لكل نص.
لم يتبق سوى مهمة واحدة بسيطة - اختيار هذه الثوابت.

ربما كان ولا يزال لديه حل رياضي جميل، لكنني شخصيًا قمت بحل كل شيء وجهاً لوجه وفقًا للمخطط التالي:

  1. أعطيت الثوابت نطاقًا من قيمها المحتملة بزيادات قدرها 0.0001
  2. لكل ثلاثية من الثوابت، تم حساب مقاييس سهولة القراءة باستخدام الصيغة المحددة
  3. ثم تم حساب الانحراف عن القيمة الصحيحة لكل نص
  4. تم إعادة حساب الانحرافات لجميع النصوص وتم الحصول على متوسط ​​الانحراف للمصفوفة

ونتيجة لذلك، من بين جميع متغيرات الثوابت، تم اختيار تلك التي كان متوسط ​​انحرافاتها في حدها الأدنى.

استغرقت كل هذه النمذجة والحسابات عدة أسابيع. ولكن في النهاية، كان من الممكن تكييف جميع الخوارزميات تقريبًا إلى اللغة الروسية، مع التحذير الوحيد وهو أنه حتى اجتياز الاختبار التجريبي الكامل، تكون جميع معاني الصيغ مشروطة.

سأقدم نتيجة إحدى الصيغ - مؤشر سهولة القراءة الآلي
القيم الثابتة هناك هي 6.26 و 0.2805 و 31.04

بما أن اللغة الروسية بها جمل أقصر، فإن ثابت متوسط ​​عدد الجمل لكل كلمة أكبر؛ وبما أن الكلمات أطول، فإن ثابت متوسط ​​عدد الأحرف لكل كلمة أصغر. بالإضافة إلى ذلك، تم اختيار عامل تصحيح للمساعدة في مواءمة تقييم النص مع مستوى التعليم.

هذا ما يبدو عليه كود مصدر بايثون لحسابه.

ARI_X_GRADE = 6.26 ARI_Y_GRADE = 0.2805 ARI_Z_GRADE = 31.04 def calc_ARI_index(n_letters, n_words, n_sent): """ مقياس مؤشر قابلية القراءة الآلي (ARI) للغة الروسية مع المعلمات الثابتة """ إذا كانت n_words == 0 أو n_sent == 0: إرجاع 0 n = ARI_X_GRADE * (float(n_letters) / n_words) + ARI_Y_GRADE * (float(n_words) / n_sent) - ARI_Z_GRADE إرجاع n

يتم تنفيذ جميع الصيغ كخدمة عبر الإنترنت - ru.readability.io. في الواقع، تم اختبار جميع الصيغ المعدلة هناك، والتي أواصل تطويرها وتعديلها. توجد واجهة برمجة التطبيقات (API) والقدرة على الحصول على مقاييس سهولة القراءة لأي نص.

ولكل من يريد تطوير صيغه الخاصة على Github بشكل مستقل، هناك كل تلك العينات التدريبية من النصوص https://github.com/infoculture/plainrussian/ والمقاييس المحسوبة منها.

بسيطة، ولكن ليست بسيطة جدا

تعد فهارس سهولة القراءة رائعة ومفيدة، ولكنها أيضًا محدودة جدًا. في الممارسة الغربية للعمل على فهم اللغة، يُذكر دائمًا أنه يجب استخدام الصيغ بعناية، دون الاعتماد عليها بنسبة 100٪ لأنها قد تعطي أحيانًا نتائج خاطئة أو غير دقيقة بما فيه الكفاية. ولذلك، على الرغم من استخدامها على نطاق واسع، فإن مسألة تطورها تطرح.

وهذا هو السؤال الذي أود مناقشته هنا في حبري.

ما هي الأساليب الأخرى التي يمكننا استخدامها لتقييم مدى تعقيد النصوص؟

ربما بعض أنماط الكلام الكتابية النموذجية؟
هل يمكن أن تكون هناك اتفاقيات معقدة ضمن الجملة؟

من المؤكد أن هناك شيئًا سيسمح لنا بالمضي قدمًا.

* الصورة ضمن Creative Commons 2.0 Attribution، Sharealike
* أصلي - Secure.flickr.com/photos/visualpunch/8746310544

يمكن للمستخدمين المسجلين فقط المشاركة في الاستطلاع. ، لو سمحت.