Okunabilirlik, temelde çoğu durumda "bir şekilde iyi çalışan" buluşsal yöntemlerden oluşur.
Bu konuyla ilgili bazı araştırma makaleleri yazdım ve neden iyi çalışan bir çözüm bulmanın kolay olduğunu ve% 100'e yaklaşmanın zorlaştığı zamanların arka planını açıklamak istiyorum.
İnsan dilinin temelinde yatan bir dil yasası var gibi görünüyor ve bu aynı zamanda (ancak tamamen değil) Web sayfası içeriğinde de açıkça ortaya çıkıyor ve iki tür metni (tam metin veya tam olmayan metin veya kabaca, " ana içerik "ve" standart metin ").
HTML'den ana içeriği elde etmek için, çoğu durumda yalnızca yaklaşık 10 kelimeden fazla olan HTML metin öğelerini (yani işaretlemeyle kesintiye uğramayan metin bloklarını) saklamak yeterlidir. İnsanların metin yazmanın iki farklı motivasyonu için iki tür metin arasından seçim yaptıkları ("kısa" ve "uzun", yaydıkları kelimelerin sayısı ile ölçülür) görünmektedir. Ben bunlara "gezinme" ve "bilgi amaçlı" motivasyonlar derdim.
Bir yazar , yazılanı hızlı bir şekilde almanızı istiyorsa , "gezinme" metni, yani birkaç kelime kullanır ("DURDUR", "Bunu oku", "Burayı tıklayın" gibi). Bu, gezinme öğelerinde (menüler vb.) En çok öne çıkan metin türüdür.
Bir yazar ne demek istediğini derinlemesine anlamanızı istiyorsa, birçok kelime kullanır. Bu şekilde, fazlalıktaki artış pahasına belirsizlik ortadan kaldırılır. Makale benzeri içerik, yalnızca birkaç kelimeden fazlasını içerdiği için genellikle bu sınıfa girer.
Bu ayrım, birçok durumda işe yarıyor gibi görünse de, başlıklar, kısa cümleler, sorumluluk reddi beyanları, telif hakkı altbilgileri vb. İle karmaşıklaşıyor.
Ana içeriği standart metinden ayırmaya yardımcı olan daha karmaşık stratejiler ve özellikler vardır. Örneğin, bağlantı yoğunluğu (bloktaki toplam kelime sayısına karşı bağlantılı bir bloktaki kelimelerin sayısı), önceki / sonraki blokların özellikleri, "bütün" Web'deki belirli bir blok metnin frekansı, HTML belgesinin DOM yapısı, sayfanın görsel görüntüsü vb.
Teorik bir perspektiften biraz fikir edinmek için en son makalem olan " Sığ Metin Özelliklerini Kullanarak Klişe Tespiti " ni okuyabilirsiniz . Ayrıca VideoLectures.net'te bildiri sunumumun videosunu da izleyebilirsiniz.
"Okunabilirlik" bu özelliklerden bazılarını kullanır. SVN değişiklik günlüğünü dikkatlice izlerseniz, stratejilerin sayısının ve Okunabilirliğin ayıklama kalitesinin zaman içinde değiştiğini göreceksiniz. Örneğin, Aralık 2009'da bağlantı yoğunluğunun tanıtılması, gelişmeye çok yardımcı oldu.
Benim görüşüme göre, tam sürüm numarasından bahsetmeden "Okunabilirlik böyle yapar" demenin bir anlamı yok.
Birkaç farklı çıkarma stratejisi sağlayan boilerpipe adlı bir Açık Kaynak HTML içerik çıkarma kitaplığı yayınladım . Kullanım durumuna bağlı olarak, bir veya diğer çıkarıcı daha iyi çalışır. Google AppEngine'deki tamamlayıcı boilerpipe-web uygulamasını kullanarak bu aspiratörleri seçtiğiniz sayfalarda deneyebilirsiniz.
Rakamların konuşmasına izin vermek için, kazan borusu, Okunabilirlik ve Apple Safari dahil olmak üzere bazı çıkarma stratejilerini karşılaştıran kazan borusu wiki'sindeki " Karşılaştırmalar " sayfasına bakın .
Bu algoritmaların ana içeriğin aslında tam metin olduğunu varsaydığını belirtmeliyim. "Ana içeriğin" başka bir şey olduğu durumlar vardır, örneğin bir resim, bir tablo, bir video vb. Algoritmalar bu gibi durumlarda iyi çalışmayacaktır.
Şerefe,
Hıristiyan