Bir insanın zevkli bir fotoğrafı, bir mayo fotoğrafı, çıplak bir fotoğraf, pornografinin betimlemeleri arasındaki farkları belirleyen resim ve içerik analizi, bildiğim kadarıyla, sadece yazılımda yapılabilecek kadar karmaşık değildir.
Neyse ki, kitle kaynaklı kaynak kullanımı, burada bir yorumda @ ammoQ'nun önerdiği gibi yararlı olmalıdır. Ancak 4chan veya başka bir forum üyeleri büyük sayıda takdir ediyorum inanmıyorum olmayan yayınlanmadan vb düğmeler için jenerik bir web grafikleri, çerçeveler, reklamlar gibi -pornographic görüntüler.
Benim tavsiyem, Amazon Mekanik Türk gibi mevcut kitle kaynaklı çözümlere bakmak olacaktır . (Bununla birlikte, hizmet şartları pornografik içeriğin dahil edilmesini açıkça yasaklayabilir, bu nedenle başka bir çözüm bulmanız veya kendi çözümünüzü almanız gerekebilir.)
Crowdsourcing'i uygulanabilir kılmak için, yazılımınızın aşağıdakilerin bir kısmını veya tamamını yapması için hazırlanmalıdır:
- İçeriği, geldiği bilgisayarla ilişkilendiren bilgileri saklayın
- Tüm envanter boyunca tam kopyaları belirleyin ve bunları kaldırın (ancak kaynak bilgiler korunur)
- Gereksiz ayrıntıları koruyarak ve depolama alanı / bant genişliği boşa harcamadan görüntünün içeriğini tanımlamak için yeterli olan belki de 320x200 boyutundaki görüntüleri örneklendirin
- Video içeriğinin sabit görüntülerini belirli aralıklarla oluşturun ve aynı alt örnekleme kuralını uygulayın
Son olarak, orijinal görüntüyü ve video içeriğini temsil eden azaltılmış görüntülerin veritabanı, şirketinizin davranış kurallarına göre kullanıcılar (veya kaynaklara sahipseniz belirlenmiş bir ekip) tarafından kontrol edilir. Program veya arabirim bir kerede tek bir görüntü veya küçük resimlerden oluşan bir ekran gösterebilir - doğru bilgiyi elde etmek için en iyi hangisi olursa olsun.
Görüntülerin geldiği bilgisayarın kimliği, verileri değerlendiren kişiler için kesinlikle gizli ve bilinmeyen olmalıdır. Ek olarak, randomize edilmeli ve her görüntü yanlılığı gidermek için birden fazla kez kontrol edilmelidir.
Aynı teknik metin için de kullanılabilir, ancak önce içerik, kitle kaynak incelemesinden metnin büyük kısmını kaldıran anahtar kelime sıralaması ile puanlanabilir. Uzun bir belgeyi sınıflandırmak elbette bir resmi sınıflandırmaktan daha fazla zaman alacaktır.