Çok büyük bir veri havuzunda (yüzlerce konsere) kopya fotoğrafları nasıl bulabilirim?


16

Herkes yaklaşık 100gb veri (yıllar içinde toplanan) ile uğraşırken iyi çalışan iyi bir fotoğraf çoğaltma algılama programı önerebilir?

Ubuntu'da çalışan bir şeyi tercih ederim.

Şimdiden teşekkürler!

Düzenleme: Tespit edildikten sonra koleksiyonumu yeniden düzenlememe ve kopyaları kaldırmama yardımcı olacak bir araç var mı?

Edit2: Sabit kısmı binlerce yinelenen dosya (fdupes çıktısı gibi) oluşan çıktısı olduğunda ne yapacağını bulmaktır.

Hala dizinleri diğer dizinlerin alt kümeleri olan bir dizini (yani bir dizin benzersiz dosyalar içeriyorsa) güvenli bir şekilde silebilirseniz, bu belli değildir. Bu sorun için ideal bir araç, dosya çoğaltmayı belirleyebilmeli ve ardından dosyalarınızı ve klasörlerinizi yeniden yapılandırmak için güçlü bir yol sağlamalıdır. Sabit bağlantı ile birleştirme yapmak (fslint'in yaptığı gibi) gerçekten disk alanını boşaltır, ancak başlangıçta çoğaltmaya neden olan altta yatan sorunu çözmez - yani kötü dosya / dir organizasyonu.


Ayrıca AskUbuntu , unix.stackexchange ve süper kullanıcı ile ilgili bu sorulara bakın .
BioGeek

Yanıtlar:


7

ImageMagick kurtarmaya. Bence herhangi bir çözüm için ilk adım, koleksiyonunuzun boyutunu azaltmaktır. Fotoğrafları içeriğine göre karşılaştırmak istiyorsanız , özellikle bazıları birbirinin biraz değiştirilmiş sürümleri olduğunda, çok iyi bir başlangıç, bunları küçük resimlere indirgemek ve ardından küçük resimleri karşılaştırmaktır. Bu, neredeyse benzer fotoğraflar bulmak istediğinizde ve karşılaştırma sırasında önemsiz farklılıkları "yoksaymak" istediğinizde özellikle yararlıdır.

Benim önerim, yüksek bir seviyede:
1- Fotoğrafları küçük resimlere indirmek için ImageMagick'in mogrify aracını kullanın. Bu biraz zaman alacak, ancak gerçek karşılaştırma adımlarını çok daha hızlı ve daha doğru hale getirecektir.
2- Karşılaştırma için bir eşik ayarlamanızı sağlayan ImageMagick'in karşılaştırma aracını kullanın , yani% 85'e benzer fotoğrafları bulmanızı sağlar. En çok sevdiğiniz eşik değerini bulmak için kontrollü bir deney yapmak istersiniz.


Önce küçük resim yapma fikrini çok seviyorum. Kopyaları bulduktan sonra ne yapar? Sadece bir liste mi gösteriyor? 10 binlerce yinelenen var ve bunları çözmek için güzel bir GUI çok yararlı olacaktır.
Fasterz

2
Ubuntu kullandığınızdan, her biri bahsettiğim 2 görev gibi çok özel bir görevi çözen bir dizi özel araca otomatik olarak erişebilirsiniz. Bu bir Lego oyunu, ne istersen yapabilirsin, sadece parçaları bir araya getirmelisin. Teknik olarak, 'karşılaştırma' aracına 2 fotoğraf gönderirsiniz ve bu size birinin diğerine ne kadar benzediğini söyler. Sorununuzu çözmenin bir yolu, tüm benzer fotoğrafları klasörler halinde gruplandırmaktır, böylece yanlış pozitifleri filtrelemek için bunlara gidebilirsiniz. Sonra tekrar yanlış pozitifler üzerinde 'karşılaştır' çalıştırın ve hepsi doğru yerde olana kadar işlemi tekrarlayın.
cody

4

Açık kaynak fotoğraf görüntüleyici / organizatör Geeqie güçlü bir Yinelenen Bul Özelliğine sahiptir . Yinelenenleri bulmak için birkaç farklı strateji kullanabilir:

  • Dosya adı (büyük / küçük harfe duyarlı veya duyarsız)
  • Dosya boyutu
  • Dosya tarihi
  • Görüntü boyutları
  • MD5 sağlama toplamı.
  • Benzer görüntü içeriği (çeşitli eşiklere)

Bu, manuel olarak onaylayabilmeniz için küçük resimler içerebilen bir sonuç listesi verir.

Bu muhtemelen binlerce dosya için yavaş olacaktır , ancak bence bunu kullanmanız ve birkaç gün boyunca çalışmasına izin vermeniz ya da genel olarak ihtiyacınız olan şey olmadığı sürece, dava için uyarlanmış bir şey bulmaktan veya yapmaktan daha az çaba harcayacağınızı düşünüyorum.


Kulağa hoş geliyor. Kopyaları bulduktan sonra ne yapar? Sadece bir liste mi gösteriyor? 10 binlerce yinelenen var ve bunları çözmek için güzel bir GUI çok yararlı olacaktır.
Fasterz

Bunları bir GUI penceresinde görüntüler.
Lütfen Oku Profili

3

Adlı küçük yarar vardır "fdupes" ne istiyorsanız edebilir?

Ayrıca denemek isteyebileceğiniz "fslint" adında başka bir yardımcı program daha vardır . (Bu bir GUI'ye sahiptir).


Ben sadece küçük bir dizi resimleri (birkaç konser ya da öylesine) fslint denedim ve sadece orada oturur ve spin sinir bozucu. İlerleme göstergesi yok, kalan süre tahmini, hiçbir şey.
Fasterz

1
Bu araçlar aynı dosyaları arıyor gibi görünüyor. Aynı (piksel için piksel) görüntü bile farklı dosya içeriği olabilir. Sadece aynı görünüme sahip görüntüyü eşleştirmek istemediğinizi tahmin ediyorum, aynı zamanda, aynı fotoğrafın tüm varyasyonlarını bir arada toplamak gibi, ekin ve yaptığınız diğer işlemler de dahil olmak üzere farklı biçimlerde ve boyutlarda da yapmak istiyorsunuz. dizin. Bu, bir güven eşleme faktörüne sahip olan ve aynı sahnenin farklı fotoğraflarıyla eşleşebilecek görüntülerin yumuşak bir karşılaştırması olacaktır.
Skaperen

@Skaperen Önerdiğiniz şey harika, ama Ubuntu için böyle araçlar var mı? Windows için bir yerde bahsettim - ama bu korkunç bir arayüz var gibi görünüyordu .. vb
Fasterz

ImageDupeless benzer görünen, ancak bazı farklılıkları olan fotoğrafları yakalayacak bir windows uygulamasıdır. Bazı döndürme, kırpma, yeniden boyutlandırma, renk tonu değişiklikleri, filigranlar vb. Yakalayacaktır. Kütüphanenizi taramanız ve ne kadar fark kabul ettiğinizi söylemeniz gerekir ve dosyaları size nadiren gösterecektir. AMA yüzlerce dosya için olağanüstü derecede hantal ve binlerce dosya korkunç olurdu. Ben de ImageDupeless eşdeğer bir linux arıyorum. Resimlerin ne zaman benzer olduğunu söylemek için dalgacıklar veya başka bir görüntüleme büyüsü yapan bir uygulama.
Therealstubot

Man sayfası seçeneklerini okuyun fdupes- dupes'leri silme seçeneği vardır. askubuntu.com/a/476732
rrauenza

1

dupeGuru Picture Edition , Windows, Mac OS X ve Linux için özelleştirilebilir bir kopya görüntü bulucudur.

DupeGuru'nun (standart, müzik ve resim sürümleri) birkaç sürümü vardır ve resim baskısı, diğer yöntemlerin yanı sıra (EXIF orijinal görüntü zaman damgası veya dosyaların aynı olması gibi) bir bitmap engelleme karşılaştırma algoritması aracılığıyla görsel olarak benzer görüntüleri bulmanızı sağlar. .

Hariç tutulan klasörler, iPhoto / Aperture kitaplıkları için destek ve kopyaları nasıl algıladığı ve onlarla ne yaptığı konusunda önemli ölçüde özelleştirmeler gibi çeşitli diğer kullanışlı özelliklere sahiptir.


0

Yinelenen fotoğraflar ile ne demek istiyorsun? Yani aynı dosyaları mı demek istediniz? ya da "aynı" görünen fotoğraflar mı demek istediniz.

Aynı dosyaları kastediyorsanız, tüm dosyalarda 'shasum' kullanabilir, ardından sonuçları sipariş edebilir ve 'uniq' ile benzersiz satırları bulabilir ve neyin ortadan kaldırıldığını görmek için bir 'diff' çalıştırabilirsiniz. Ubuntu kabuğunda hepsi kolay.


Bunların hiçbiri kolay veya kullanışlı değildir. Aşağıda belirtilen fdup'lar zaten sadece SHA'yı hesaplamaktan daha iyi bir iş çıkaracaktır. Şimdi görüntü benzerliğini arayacak unix araçları var mı? Eğer öyleyse, bu harika olurdu.
Fasterz

Unix araçlarını kullanmak için kullanılan, uniq, sort, diff, shasum, vb. Ancak, bunları düzenli olarak kullanmazsanız, kullanımlarının zor olabileceğini kabul ediyorum. Diyafram ve Işık Odası da dahil olmak üzere gördüğüm her şeyi "benzeyen" bir şey bilmiyorum, dosya aynıdır, bu gerçekten sadece bir md5 veya şemsidir
Pat Farrell

Düzenli olarak unix araçları kullanıyorum ve bu cevabı biraz aptalca buluyorum. İlk olarak, bir dosya boyutu karşılaştırması işleri çözdüğünde, SHA'yı körü körüne yapmak yavaştır. İkincisi, SHA veya MD5 çarpışabilir - bu yüzden SHA karşılaştırmaları tek başına yeterli değildir. Her ikisini de hesaba katarsanız, o zaman fdupes'in ne yaptığını elde edersiniz.
Fasterz

Ayrıca, bunu yapan büyüyü doğru şekilde birleştirdikten sonra, çıktı hala çok yararlı değildir. En iyi benzer dosyaları sadece bir dökümü olan fdupes çıktı olsun. Benim durumumda 10 bin var ve kopyaları nasıl ortadan kaldırabileceğimi görmek için bu verileri seçmek çok zor.
Fasterz

1
SHA'lar teoride çarpışırlar, fakat pratikte değil. Evet, sonsuza kadar sürer. İşe yarayacak hiçbir şey hızlı olmayacak. Ama onu başlatabilir ve bir iki gün içinde geri dönebilmelisin. Bu sadece bir öneri, bununla savaşa girmeyeceğim.
Pat Farrell

0

Boyut, ad ve diğer filtrelere göre yinelenen dosyaları bulan "ağartıcı" adlı bir uygulama vardır. Ubuntu'daki synapctic paket yöneticisinden kurabilirsiniz.


Kopyaları bulduktan sonra ne yapar? Sadece bir liste mi gösteriyor? 10 binlerce yinelenen var ve bunları çözmek için güzel bir GUI çok yararlı olacaktır.
Fasterz
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.