Birinin imajı beğenme olasılığı


11

Aşağıdaki sorun var:
- Biz N kişi
set - Biz K görüntü set var
- Her kişi bir kaç görüntü derecelendirir. Bir kişi bir görüntüyü beğenebilir veya beğenmeyebilir (bunlar sadece iki olasılıktır). - Sorun, bazı kişilerin belirli bir görüntüyü sevme olasılığının nasıl hesaplanacağıdır.

Sezgilerimi gösteren bir örnek vereceğim.
N = 4
K = 5
+ kişinin görüntüyü sevdiği
anlamına gelir - kişinin görüntüyü beğenmediği
anlamına gelir 0, kişiye görüntü hakkında soru sorulmadığı ve bu değerin tahmin edilmesi gerektiği anlamına gelir

x 1 2 3 4 5    
1 + - 0 0 +   
2 + - + 0 +  
3 - - + + 0  
4 - 0 - - -

Kişi 1 muhtemelen resim 3'ü sevecektir, çünkü kişi 2 benzer tercihlere sahiptir ve kişi 2 resim 3'ü sever.
Kişi 4 muhtemelen resim 2'den hoşlanmaz çünkü başka hiç kimse onu beğenmez ve ayrıca kişi 4 çoğu görüntüyü sevmez.

Bu olasılığı hesaplamak için kullanılabilecek iyi bilinen bir yöntem var mı?


Sınırlı tecrübem göz önüne alındığında, kesin bir cevap veremem. Bununla birlikte, panel verilerini (bireyler içinde ve bireyler arasındaki örnek varyasyonlarında düşündüğünüz için) logit ile kullanabileceğinize inanıyorum. Belki diğerleri bu konuda ayrıntılı ...
teucer

Küçük örneğiniz çok faydalı, ancak gerçek veri kümenizin daha büyük olduğunu varsayıyorum. Ne kadar büyük, yani (kabaca) gerçek N ve k'nuz ne kadar büyük ?
onestop

N ve k çok büyük olabilir, ancak hesaplama gücü bir sorun değildir.
Tomek Tarczynski

Yanıtlar:



6

Bu makine öğrenimi için iyi bir sorun gibi görünüyor, bu yüzden bu yöntem grubuna odaklanacağım.

İlk ve en belirgin fikir kNN algoritmasıdır. Orada önce izleyiciler arasındaki benzerliği hesaplar ve daha sonra benzer kullanıcılar tarafından kullanılan bu resimdeki ortalama oy ile eksik oyları tahmin edersiniz. Ayrıntılar için Wikipedia'ya bakınız .

Başka bir fikir, bu veriler üzerinde denetimsiz rasgele orman yetiştirmek (her iki şekilde de, resimlerdeki veya insanlardaki niteliklerle, daha iyi olan ne olursa olsun) ve eksik yapıyı orman yapısına dayalı olarak örtmek; tüm yöntem R randomForestpaketinde uygulanır ve tanımlanır , rfImputeişlevi arayın .

Son olarak, sorunu düz bir sınıflandırma görevine yeniden yapılandırabilir, diyelim ki matristeki her sıfırın bir nesnesini yapabilir ve bazı makul tanımlayıcıları düşünmeye çalışabilirsiniz (ortalama izleyici oyu, ortalama görüntü oyu, en çok, ikinci en çok oy gibi). benzer izleyici, görüntü ile aynı, muhtemelen bazı dış veriler (ortalama görüntü tonu, seçmen yaşı, vb.) Ve sonra bu veriler üzerinde çeşitli sınıflandırıcılar deneyin (SVM, RF, NB, ...).

Daha karmaşık olasılıklar da var; genel bakış için Netflix ödül meydan okuma (benzer bir sorundu) çözümlerini arayabilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.