İngilizce bir cümlenin karmaşıklığı nasıl belirlenir?


10

İnsanların İngilizce'yi ikinci dil olarak öğrenmelerine yardımcı olmak için bir uygulama üzerinde çalışıyorum. Cümlelerin ekstra bağlam sağlayarak bir dil öğrenmeye yardımcı olduğunu doğruladım. Bunu 60 kişilik bir sınıfta küçük bir araştırma yaparak yaptım.

Çeşitli İngilizce kelimeler için Wikipedia'dan yüz binden fazla cümle inceledim (Barrons'800 kelime ve en yaygın 1000 İngilizce kelime dahil)

Tüm verilere https://buildmyvocab.in adresinden ulaşılabilir.

İçeriğin kalitesini korumak için, anlaşılması zor olabileceğinden 160 karakterden daha uzun cümleleri filtreledim.

Bir sonraki adım olarak, bu içeriği anlama kolaylığı sırasına göre sıralama sürecini otomatikleştirmek istiyorum. Ben de anadili İngilizce olmayan biriyim. Kolay cümleleri zor olanlardan ayırmak için hangi özellikleri kullanabileceğimi bilmek istiyorum.

Ayrıca, bunun mümkün olduğunu düşünüyor musunuz?

Yanıtlar:


8

Evet. Fogg endeksi gibi çeşitli metrikler vardır. Python'daki Textacy'nin güzel bir listesi ve uygulamaları var.

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}

Entropiye veya benzersiz kelimelerin yüzdesine de bakabilirsiniz, ancak yukarıdaki metrikler daha alakalı.
GrimSqueaker
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.