Kitaplık imajından kitap başlığı ve yazar dilimleme ve tanıma

13

Kendi öğrenme amaçlarım için, aşağıdaki gibi bir kitaplık görüntüsü verildiğinde, kitapları listeleyecek bir algoritma uygulaması geliştirmeye çalışıyorum:

resim açıklamasını buraya girin

İlk adım, görüntüyü tek tek kitaplara ayırmaktır.

Mathematica'daki algoritmam :

    img = ColorConvert[Import["http://i.stack.imgur.com/IaLQk.jpg"], "GrayScale"]

temel bir kenar algılama ve

metni kaldırın ve uzun satırları tutmaya çalışın

edge = DeleteSmallComponents[EdgeDetect[img, 3],Last[ImageDimensions[img]]/5]

ardından istenmeyen yatay çizgileri kaldırın

lines = Sort[ImageLines[img5] /. {{0., _}, {_, _}} -> Sequence[]]
Show[img, Graphics[{Thick, Orange, Line /@ lines}]]

Ancak sonuçlar harikadan daha az:

resim açıklamasını buraya girin

Sorularım:

Daha iyi sonuçlar elde etmek için bunu nasıl geliştirebilirim?
Bunu yapmanın daha akıllı bir yolu var mı?
(daha sonra) OCR aşamasında doğruluğu artırmak için görüntüleri nasıl daha fazla işlemeliyim?
Segmentasyonu iyileştirmek için renk bilgileri nasıl kullanılır?

opencv computer-vision image-segmentation

— Ören Pinsky
kaynak

1

@OrenPinsky Segmentasyon ile ilgili sorunu görmüyorum: "yanlış kitap alanlarının" sayısı yüksek değil (sağladığınız örnekte yalnızca birini görebiliyorum) ve bir tür metin tanıma yapmayı planlıyorsanız sonraki adım, bu kitap (alan metni var) ve kitap değil (metin yok) arasında ayrım yapmak için yeterli olmalıdır

— penelope

3

@OrenPinsky, sonuçlarınızın harika olduğunu söyleyebilirim. :)

— Dima

7

İşte, aynı şeyi istediğiniz gibi yapmaya çalışan bir araştırma makalesinin bağlantısı. Size yardımcı olabilir. görüntü özelliklerini kullanma Ayrıca youtube'da harika bir video

— Isrish
kaynak

Ne yazık ki, ilk bağlantı koptu.

— Youngjae

4

Hatları tespit etmek için hangi yöntemi kullanıyorsunuz? LSD ile denemeyi denediniz mi?

LSD kullanarak yaptığım hızlı testin sonuçları:

$0.1 * height$

İkinci görüntü, aynı açı kısıtlamasına sahip olan ancak segmentlerin uzunluklarını dikkate almayan sonuçlardır:

Bununla biraz oynamayı deneyebilir, en iyi çizgi segmentlerini nasıl seçeceğinizi öğrenebilir, bunları çizgilere genişletebilir ve yayınladığınızdan biraz daha iyi sonuçlar alabilirsiniz.

— ppalasek
kaynak

6

"LSD ile denemeyi denediniz mi?" Güzel bir deneme, FBI;)

— Lorem Ipsum

Mathematica'nın ImageLine'ı Hough dönüşümüne dayanıyor ve şimdi (çoğunlukla buradaki geri bildirimlerden) oldukça iyi çalıştığına ikna oldum. Yine de, gri tonlamaya dönüştüğümde ilgili verileri kaybettiğim ve bu uygulamada renk verilerinin (sezgisel olarak) sağlam bir kenar dedektörüne yardımcı olabileceği beni rahatsız ediyor. LSD'yi deneyecek ve nasıl gittiğini görecek! (Steve Jobs için inanılmaz iyi çalıştı! ;-)

— Oren Pinsky

Bir arkadaşımın kapı algılama için LSD kullandığını gördüm, sonunda sonuçlardan memnun olduğunu düşünüyorum.

— Denemeye

1

Tek tek renk alanlarında kenar algılama yapmayı deneyebilir ve ardından kenar algılama için tercih ettiğiniz yöntemi kullanarak birleştirebilirsiniz.

Doğrudan renkli görüntü üzerinde kenar algılamaya kıyasla, daha iyi sonuçlar verebilir.

— Naresh
kaynak

0

İsrish tarafından sağlanan kırık linkten kağıt bulunabilir Görsel ve metin özelliklerini birleştirme: mobil kitap omurga tanıma melez bir yaklaşım , Proc. 19. ACM uluslararası Multimedya konferansı, 2011. David Chen ve ark. , örneğin Konuma Duyarlı Kameralı Telefonlar Kullanarak Düşük Maliyetli Varlık Takibi , Proc. SPIE 2010.

— Dimitri Podborski
kaynak