Bağlamsal haydutlar için maliyet fonksiyonları

Bağlamsal bir haydut sorunu çözmek için vowpal wabbit kullanıyorum . Kullanıcılara reklamları gösteriyorum ve reklamın gösterildiği bağlam hakkında oldukça fazla bilgiye sahibim (ör. Kullanıcının kim olduğu, hangi sitede olduğu vb.). Bu, John Langford tarafından tarif edildiği gibi oldukça klasik bir bağlamsal eşkıya sorunu gibi görünüyor .

Benim durumumda, bir kullanıcının bir reklama verebileceği 2 ana yanıt vardır: tıklamak (muhtemelen birden çok kez) veya tıklamamak. Aralarından seçim yapabileceğim yaklaşık 1.000 reklamım var. Vowpal Wabbit action:cost:probability, her bağlam için bir hedef değişken gerektirir . Benim durumumda actionve probabilityanlaşılması kolay: actiongörüntülemeyi seçtiğim reklam ve probabilityreklamları göstermek için mevcut politikam verildiğinde bu reklamı seçme olasılığı.

Ancak, getirilerimi (tıklamaları) maliyetlerle eşlemek için iyi bir yol bulmakta zorlanıyorum. Tıklamalar açıktır ve aynı reklama yapılan birden çok tıklama, aynı reklama yapılan tek tıklamadan da daha iyidir. Ancak, bir reklamı tıklamak tarafsızdır: aslında bana bir tıklama için kaçırılan fırsattan başka bir maliyeti yoktur (tek bir reklam bağlamında çalışıyorum).

Sahip olduğum bazı fikirler:

maliyet = -1 * işareti (tıklama) + 0 * (tıklama değil)
maliyet = -1 * tıklama + 0 * (tıklanmadı)
maliyet = -1 * işareti (tıklama) + 0,01 * (tıklanmadı)
maliyet = -1 * tıklama + 0,01 * (tıklanmadı)

(0, 1, 5, 0)Bu 4 işlevden maliyetlerin bir eylem vektörü durumunda:

(0, -1, -1, 0)
(0, -1, -5, 0)
(0.01, -1, -1, 0.01)
(0.01, -1, -5, 0.01)

Bunu göstermenin başka birçok yolu var clicks=goodve no clicks=bad.genel olarak, vowpal wabbit'te bağlamsal eşkıya sorunları için maliyetleri nasıl modellemeliyim? Faydaları negatif maliyetler olarak temsil etmek uygun mu yoksa her şeyi tüm maliyetler olumlu olacak şekilde yeniden ölçeklendirmeli miyim? Nispeten tarafsız eylemlerin sıfır maliyete sahip olması uygun mu yoksa modeli olumlu eylemlere doğru itmeleri için onlara küçük bir pozitif maliyet vermeli miyim?

— Zach
kaynak

"2 olası işlem var: bir kullanıcı reklamı tıklayabilir veya bir kullanıcı reklamı tıklayamaz." Hangi reklamın gösterileceğine karar vermeye çalışıyorsanız, reklamlar işlem olmamalı mı?

— alto

@alto: Bunun "bir kullanıcı için kaydedebileceğimiz 2 olası yanıt var" yazması gerektiğini düşünüyorum. Bu daha mantıklı mı?

— Zach

Bunun gerçekten bağlamsal bir haydut sorunu olduğundan emin değilim, çünkü amacınızın burada ne olduğundan emin değilim. Bağlamsal haydut sorununun çözümü "gözlemlenen bağlamlar için eylemleri minimum maliyetle seçen bir politikayı optimize etmeye çalışır." Kaç reklam yayınlanacağını anlamaya çalışıyorsunuz? Tüketici davranışlarını modellemeye mi çalışıyorsunuz? Başka bir şey?

— shadowtalker

@ssdecontrol Bir bağlam verildiğinde hangi reklamın gösterileceğini anlamaya çalışıyorum. Bağlamsal haydutlar için yaygın olarak kullanılan bir örnek problem, ancak vowpal-wabbit'in bağlamsal haydut çözücüsünden gerçekten kötü sonuçlar alıyorum. Bir reklamın "tıklanmasının" veya tıklanmamasının "maliyetini belirtmem gereken farklı bir yol olup olmadığını merak ediyordum.

— Zach

@nik Asla gerçekten çözemedim ve bunun yerine VW'den düzenli bir çok sınıflı modelle gittim.

— Zach

İlk yardım için muhtemelen buraya danışılmalıdır : https://arxiv.org/pdf/1802.04064.pdf

Ampirik bir değerlendirme.

— mat
kaynak