TeX yığın değişiminde, bu sorudaki paragraflarda "nehirleri" nasıl tespit edeceğimizi tartışıyoruz .
Bu bağlamda nehirler, metindeki interword boşluklarının yanlışlıkla hizalanmasından kaynaklanan beyaz boşluk bantlarıdır. Bu bir okuyucunun dikkatini dağıtabildiğinden, kötü nehirler kötü tipografi belirtisi olarak kabul edilir. Akarsu içeren bir metin örneği, çapraz akan iki akarsu olduğu yerdir.
Bu nehirlerin otomatik olarak algılanmasına ilgi vardır, bu sayede bunlardan kaçınılabilir (muhtemelen metnin elle düzenlenmesi ile). Raphink (yalnızca glif konumlarını ve sınırlayıcı kutularını bilen) TeX düzeyinde bir miktar ilerleme kaydetmektedir, ancak nehirleri tespit etmenin en iyi yolunun bazı görüntü işlemelerinde olduğundan (glif şekilleri çok önemli ve TeX için mevcut olmadığından) eminim. . Nehirleri yukarıdaki görüntüden çıkarmanın çeşitli yollarını denedim, ancak basit bir miktar elipsoidal bulanıklaştırma uygulama fikrim yeterince iyi gözükmüyor. Ben de biraz Radon denedimHough dönüşüm tabanlı filtreleme, ama onlardan hiçbiriyle anlamadım. Nehirler, insan gözü / retina / beynin özellik tespit devrelerinde çok görünür ve bir şekilde bunun bir çeşit filtreleme işlemine çevrilebileceğini düşünürdüm, ancak çalışmasını sağlayamıyorum. Herhangi bir fikir?
Daha açık olmak gerekirse, yukarıdaki resimde bulunan 2 nehiri tespit edecek, ancak çok fazla yanlış pozitif tespit bulunmayan bir işlem arıyorum.
EDIT: endolith, TeX'te glif konumlarına, aralıklarına vb. Erişebildiğimiz ve gerçek metni inceleyen bir algoritmayı kullanmanın çok daha hızlı ve daha güvenilir olabileceği göz önüne alındığında neden görüntü işleme tabanlı bir yaklaşım peşinde olduğumu sordu. Başka şeyler yapmamın sebebi bu şekildegliflerin bir nehrin ne kadar belirgin olduğunu etkileyebileceğini ve metin düzeyinde (bu yazı tipine, bitiş harfine, vb. Gliflerin şeklinin nasıl önemli olabileceğinin bir örneği için, aşağıdaki iki örneği göz önünde bulundurun; aralarındaki fark, birkaç glifi neredeyse aynı genişliğe sahip diğerleriyle değiştirdiğimde, böylece metin tabanlı bir analiz düşünebilir. Onları eşit derecede iyi / kötü. Bununla birlikte, birinci örnekteki nehirlerin ikinciden çok daha kötü olduğuna dikkat edin.
ImageLines[]
ve bazı ön işleme olmadan, Mathematica dan. Sanırım bu teknik olarak Radon dönüşümü yerine bir Hough kullanıyor. Doğru ön işleme (datageistin önerdiği dilasyon filtresini denemedim) ve / veya parametre ayarları bu işi yapabilirse şaşırmayacağım.