Kitaplık imajından kitap başlığı ve yazar dilimleme ve tanıma


13

Kendi öğrenme amaçlarım için, aşağıdaki gibi bir kitaplık görüntüsü verildiğinde, kitapları listeleyecek bir algoritma uygulaması geliştirmeye çalışıyorum:

resim açıklamasını buraya girin

İlk adım, görüntüyü tek tek kitaplara ayırmaktır.

Mathematica'daki algoritmam :

    img = ColorConvert[Import["http://i.stack.imgur.com/IaLQk.jpg"], "GrayScale"]
  • temel bir kenar algılama ve
  • metni kaldırın ve uzun satırları tutmaya çalışın

    edge = DeleteSmallComponents[EdgeDetect[img, 3],Last[ImageDimensions[img]]/5]
    
  • ardından istenmeyen yatay çizgileri kaldırın

    lines = Sort[ImageLines[img5] /. {{0., _}, {_, _}} -> Sequence[]]
    Show[img, Graphics[{Thick, Orange, Line /@ lines}]]
    

Ancak sonuçlar harikadan daha az:

resim açıklamasını buraya girin

Sorularım:

  1. Daha iyi sonuçlar elde etmek için bunu nasıl geliştirebilirim?
  2. Bunu yapmanın daha akıllı bir yolu var mı?
  3. (daha sonra) OCR aşamasında doğruluğu artırmak için görüntüleri nasıl daha fazla işlemeliyim?
  4. Segmentasyonu iyileştirmek için renk bilgileri nasıl kullanılır?

1
@OrenPinsky Segmentasyon ile ilgili sorunu görmüyorum: "yanlış kitap alanlarının" sayısı yüksek değil (sağladığınız örnekte yalnızca birini görebiliyorum) ve bir tür metin tanıma yapmayı planlıyorsanız sonraki adım, bu kitap (alan metni var) ve kitap değil (metin yok) arasında ayrım yapmak için yeterli olmalıdır
penelope

3
@OrenPinsky, sonuçlarınızın harika olduğunu söyleyebilirim. :)
Dima

Yanıtlar:



4

Hatları tespit etmek için hangi yöntemi kullanıyorsunuz? LSD ile denemeyi denediniz mi?

LSD kullanarak yaptığım hızlı testin sonuçları:

0.1*hebenghtpic1

İkinci görüntü, aynı açı kısıtlamasına sahip olan ancak segmentlerin uzunluklarını dikkate almayan sonuçlardır: pic2

Bununla biraz oynamayı deneyebilir, en iyi çizgi segmentlerini nasıl seçeceğinizi öğrenebilir, bunları çizgilere genişletebilir ve yayınladığınızdan biraz daha iyi sonuçlar alabilirsiniz.


6
"LSD ile denemeyi denediniz mi?" Güzel bir deneme, FBI;)
Lorem Ipsum

Mathematica'nın ImageLine'ı Hough dönüşümüne dayanıyor ve şimdi (çoğunlukla buradaki geri bildirimlerden) oldukça iyi çalıştığına ikna oldum. Yine de, gri tonlamaya dönüştüğümde ilgili verileri kaybettiğim ve bu uygulamada renk verilerinin (sezgisel olarak) sağlam bir kenar dedektörüne yardımcı olabileceği beni rahatsız ediyor. LSD'yi deneyecek ve nasıl gittiğini görecek! (Steve Jobs için inanılmaz iyi çalıştı! ;-)
Oren Pinsky

Bir arkadaşımın kapı algılama için LSD kullandığını gördüm, sonunda sonuçlardan memnun olduğunu düşünüyorum.
Denemeye

1

Tek tek renk alanlarında kenar algılama yapmayı deneyebilir ve ardından kenar algılama için tercih ettiğiniz yöntemi kullanarak birleştirebilirsiniz.

Doğrudan renkli görüntü üzerinde kenar algılamaya kıyasla, daha iyi sonuçlar verebilir.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.