Online tanışma siteleri için istatistikler


10

Çevrimiçi tanışma sistemlerinin eşleşmeleri belirlemek için anket verilerini nasıl kullanabileceğini merak ediyorum.

Geçmiş maçlardan sonuç verisi olduğunu varsayalım (örneğin, 1 = mutlu bir şekilde evlendi, 0 = 2. tarih yok).

Şimdi diyelim ki 2 tercih soruları var,

  • "Açık hava etkinliklerinden ne kadar hoşlanırsınız? (1 = kesinlikle beğenmedim, 5 = kesinlikle beğeniyorum)"
  • "Hayat konusunda ne kadar iyimsersin? (1 = kesinlikle beğenmedim, 5 = kesinlikle beğeniyorum)"

Ayrıca, her tercih sorusu için "Eşinizin tercihinizi paylaşması ne kadar önemli?" (1 = önemli değil, 3 = çok önemli) göstergesine sahip olduğunu varsayalım.

Her bir çift için bu 4 soru ve maçın başarılı olup olmadığına dair bir sonucu varsa, bu bilgileri gelecekteki maçları tahmin etmek için kullanacak temel model nedir?


2
Kız güzel ya da erkek zengin olduğunda bir başarı maçı olacağını düşündüm. Geri kalan her şey ikincildir.
user4951

4
Blog.okcupid.com adresini kontrol edin - bir yerde altta yatan eşleşen modeller hakkında konuşurlar.
Felix S

Daha fazla derinlik istediğiniz şeylerden bahsedebilir misiniz? Michael'ın cevabı oldukça sağlam bir bakış.
Dan

EHarmony için patenti (patent 6,735,568 - google.com/… ) okursanız, sistemleri Temel Bileşen Analizi, Faktör Analizi kombinasyonunu kullanır ve Sinir Ağı kullanır. Diğerlerinin de belirttiği gibi K-NN, CARTS ve GLM'ler gibi yöntemler de iyi çalışır.
Chris Simokat

@ChrisSimokat - VAY! İnanılmaz bağlantı için çok teşekkürler. Bu ilginç. İstatistiksel yöntemleri ve algoritmaları "telif hakkı" olarak alabileceğinizi hiç düşünmemiştim.
d_a_c321

Yanıtlar:


4

Bir keresinde istatistiksel teknikler kullanan çevrimiçi tanışma sitelerinden biri için çalışan biriyle konuştum (muhtemelen kim olduğunu söylemedim). Oldukça ilginçti - başlangıçta, profil vektörleri arasında öklidi veya L_1 (şehir bloğu) mesafelerine sahip en yakın komşular gibi çok basit şeyler kullandılar, ancak çok benzer olan iki kişinin eşleşmesinin iyi mi yoksa kötü mü olduğu konusunda bir tartışma vardı şey. Daha sonra artık çok fazla veri topladıklarını (kiminle ilgilenen, kiminle çıkanlar, kiminle evli vb.), Bunu sürekli modelleri yeniden eğitmek için kullandıklarını söyledi. Artımlı-toplu iş çerçevesindeki çalışma, burada veri yığınlarını kullanarak modellerini periyodik olarak günceller ve daha sonra veritabanındaki eşleşme olasılıklarını yeniden hesaplar. Oldukça ilginç şeyler, ama ben


3

Basit bir model istediniz. R kodu ile nasıl başlayacağınız aşağıda açıklanmıştır:

 glm(match ~ outdoorDif*outdoorImport + optimistDif*optimistImport,
     family=binomial(link="logit"))

outdoorDif = açık hava aktivitelerinden ne kadar hoşlandıklarına dair iki kişinin cevaplarının farkı. outdoorImport = Açık hava aktivitelerinin keyfini çıkarmaya yönelik cevaplarla ilgili bir maçın önemine dair iki cevabın ortalaması.

*, Önceki ve sonraki terimlerin etkileşime girdiğini ve ayrıca ayrı olarak dahil edildiğini belirtir.

Maç verilerinin "mutlu bir şekilde evli" ve "ikinci bir tarih yok" olmak üzere iki seçenekle ikili olmasını öneriyorsunuz. Bu gerçekçi görünmüyor. İkiden fazla olası sonucunuz varsa, çok terimli veya sıralı bir logit veya böyle bir modele geçmeniz gerekir.

Önerdiğiniz gibi, bazı insanlar birden fazla deneme girişiminde bulunduysa, bu muhtemelen modelde hesaba katmaya çalışmak için çok önemli bir şey olacaktır. Bunu yapmanın bir yolu, her bir kişi için daha önce denenen eşleşme sayısını gösteren ayrı değişkenlere sahip olmak ve daha sonra bu etkileşimi yapmak olabilir.


Harika cevap için teşekkürler .. Size ödül veriyorum! :) Bu iyi bir yaklaşım gibi görünüyor. Belki de M gibi kategorilere uyan N sorularınız varsa (örn. Atletizm soruları), bu kategori içindeki önem ve farklılıkların ortalamasını kullanarak modeli zenginleştirebilir ve ek bir terim olarak ekleyebilirsiniz. Mükemmel değil, ancak birkaç ilişkili değişkenin etkileşimini yakalamak için basit bir yol olabilir. Tekrar teşekkürler, cevabınızı vermeyen diğer düşünceleri duymaktan mutluluk duyarım;).
d_a_c321

Önce cevapları normalleştirmemelisiniz? Herkes dış mekandan hoşlandıysa, açık hava cevabı daha az alakalı olmalıdır, çünkü uyumluluğun zayıf bir öngörücüsü olacaktır.
Sklivvz

@Skliwz, çoktan seçmeli (sıralı) bir cevabı nasıl normalleştireceğinizden emin değilim. Ayrıca, sürekli yordayıcı değişkenlerin doğrusal dönüşümlerinin bazen burada tartışılan nedenlerden dolayı istenebileceğini unutmayın: stats.stackexchange.com/q/7112/3748 ve burada: stats.stackexchange.com/q/19216/3748, ancak bazı olağandışı hesaplama konularını engelleyen tahminleri modeller. Herkes dış mekandan hoşlanırsa, açık havada eşit dış mekan cevabı daha az alakalı, ancak belirttiğim gibi model için gerçekten bir sorun olduğunu düşünmüyorum. (Benim modelim mükemmel değil)
Michael Bishop

1

Basit bir yaklaşım aşağıdaki gibi olacaktır.

İki tercih sorusu için, iki yanıtlayıcının yanıtı arasında, dört yerine z1 ve z2 gibi iki değişken vererek mutlak farkı ele alın.

Önemli sorular için, iki yanıtı birleştiren bir puan oluşturabilirim. Yanıtlar diyelim ki (1,1), 1 veririm, a (1,2) veya (2,1) 2 alır, a (1,3) veya (3,1) 3, a (2,3) veya (3,2) 4 alır ve (3,3) 5 alır. "Önem puanı" diyelim. Bir alternatif sadece 5 yerine 3 kategori vererek max (yanıt) kullanmak olacaktır, ancak 5 kategori versiyonunun daha iyi olduğunu düşünüyorum.

Şimdi on değişken oluşturdum, x1 - x10 (somutluk için), hepsi varsayılan sıfır değerleriyle. İlk soru için önem puanı olan gözlemler için = 1, x1 = z1. İkinci soru için önem puanı da = 1 ise, x2 = z2. İlk soru için önem puanı olan gözlemler için = 2, x3 = z1 ve ikinci soru için önem puanı = 2, x4 = z2, vb. Her gözlem için, tam olarak x1, x3, x5, x7, x9! = 0 ve benzer şekilde x2, x4, x6, x8, x10 için.

Tüm bunları yaptıktan sonra, hedef değişken olarak ikili sonuç ve regresörler olarak x1 - x10 ile lojistik bir regresyon yürütürdüm.

Bunun daha sofistike versiyonları, erkek ve kadın katılımcının öneminin farklı muamele görmesine izin vererek daha fazla önem puanı oluşturabilir, örneğin, cevapları cinsiyete göre sipariş ettiğimiz bir (1,2)! = A (2,1).

Bu modelin bir eksikliği, aynı kişinin birden fazla gözlemine sahip olabilmenizdir, bu da, "hataların", gevşekçe, gözlemler arasında bağımsız olmadığı anlamına gelir. Bununla birlikte, örnekteki birçok insanla, ilk geçişte bunu görmezden gelebilir veya kopyaların olmadığı bir örnek oluşturabilirim.

Diğer bir eksiklik, önem arttıkça, tercihler arasındaki belirli bir farkın p (başarısızlık) üzerindeki etkisinin de artacağı mantıklıdır, bu da (x1, x3, x5, x7, x9) katsayıları ve (x2, x4, x6, x8, x10) katsayıları arasında. (Muhtemelen tam bir sıralama değildir, çünkü benim için (2,2) bir önem puanının (1,3) bir önem puanı ile nasıl bir ilişkisi olduğu açık değildir.) Ancak, bunu modele dayatmadık. Muhtemelen ilk başta bunu görmezden gelirdim ve sonuçlardan şaşkın olup olmadığımı görürüm.

Bu yaklaşımın avantajı, "önem" ile tercih tepkileri arasındaki ilişkinin işlevsel biçimi hakkında hiçbir varsayımda bulunmamasıdır. Bu, önceki eksiklik yorumuyla çelişmektedir, ancak bence işlevsel bir formun eksikliği, katsayılar arasındaki beklenen ilişkileri hesaba katmaktan ilgili başarısızlıktan daha yararlıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.