En iyi çağrı süresini tahmin edin


10

Kaliforniya'nın farklı şehirlerinde bir dizi müşteri, her müşteri için arama zamanı ve çağrı durumunu içeren bir veri setim var (müşteri aramayı cevaplarsa Doğru ve müşteri cevap vermezse Yanlış).

Gelecekteki müşterileri aramak için uygun bir zaman bulmalıyım ki aramayı cevaplama olasılığı yüksek. Peki, bu sorun için en iyi strateji nedir? Sınıfların hangi saatlerde (0,1,2, ... 23) bir sınıflandırma problemi olduğunu düşünmeli miyim? Yoksa sürenin sürekli bir değişken olduğu bir regresyon görevi olarak mı düşünmeliyim? Aramayı cevaplama olasılığının yüksek olacağından nasıl emin olabilirim?

Herhangi bir yardım mutluluk duyacağız. Beni benzer sorunlara yönlendirirseniz harika olur.

Aşağıda verilerin bir anlık görüntüsü verilmiştir.


Sean Owen, görev nasıl geçti? Şimdi benzer bir sorunu çözmeye çalışıyorum ve deneyiminizi duymak isterim - web'de bu konuda çok fazla kaynak yok. Şimdiden teşekkürler!
Dominika

Yanıtlar:


5

Bunu uygun bir dönüşüm olmadan bir regresyon problemi olarak modellerseniz aslında sorunlarla karşılaşabilirsiniz. Örneğin, çoğu çağrının büyük olasılıkla gündüz, gece ve sabah erken saatlerinde cevaplandığını biliyoruz. Doğrusal bir regresyon zor olurdu çünkü ilişki muhtemelen doğrusal değil eğriseldir. Aynı nedenden dolayı, bunun lojistik regresyonu olan bir sınıflandırma görevi olarak ele alınması da sorunlu olacaktır.

Diğer katılımcıların önerdiği gibi, verilerinizi zaman aralıklarına göre yeniden sınıflandırmak yardımcı olacaktır ve önce bir karar ağacı veya rastgele orman gibi bir şey denemenizi öneririz.

Tüm bunlar, basit tanımlayıcı istatistikler için bir durum olabilir. Cevaplanan çağrıları günün saatine göre (şehir veya başka herhangi bir demografiye göre bölünmüş olarak) çizerseniz, net bir en iyi zaman var mı? Öyleyse, neden bir modelle işleri karmaşıklaştırıyorsunuz?


1

Aşağıdakileri deneyebilirsiniz:

  1. Günü çeşitli bölümlere ayırın - sabah erken, sabah, öğlen, öğleden sonra, akşam, akşam geç, gece vb.
  2. Günün her bir bölümüne zaman sınırları atayın, örneğin öğlen 12:00 ila 13:00 olabilir.
  3. 3 yeni etiket oluşturun - "müşteriyi aramak için günün bir bölümü", her pozitif durum için (çağrı durumu = doğru) bu etikete karşılık gelen etiketi (sabah / öğle / akşam) atayın. Bu etiketler bir sıcak kodlanmış biçimde olacaktır, örneğin prefer_morning = 0/1, prefer_noon, prefer_evening vb.
  4. Bir aramanın başarılı olması için olası satışın sabah / öğlen / veya akşam saatini tercih edip etmediğini tahmin etmek için 3 model oluşturun.

Ayrıca, tabloda listelenen özellikler (şehir vb.) Çok belirsiz olduğundan ve müşteriler arasında ayrım yapmak için fazla bilgi vermediğinden, meslek, cinsiyet vb. Gibi ek özellikler eklemenizi öneririm.

Yorumlarda öneriye göre DÜZENLENMİŞTİR:

Modeli kullanırken, her olası satış prefers_morning = evet / hayır, prefers_noon = evet / hayır ve prefers_evening = evet / hayır olarak sınıflandırılır. Günün saatine bağlı olarak, örneğin sabahları, çağrı merkezi temsilcisi (veya yazılımı) sabah tercih setinde sınıflandırılmış olan çağrı hatlarını alabilir ve arayabilir. Öğlen geldiğinde, çağrı yazılımı öğlen tercih listesinden seçim yapar, vb.


@ sandeep-s-sandhu Bu, sorunu veri bilimi sınıflandırma problemine dönüştürmenin basit bir yoludur. Ancak bu yaklaşımın bazı dezavantajları olabileceği görülmektedir: 1. etiket bilgisi sadece pozitif vaka içerir, negatif vaka bilgisini kaybeder 2. Bir müşteri etiketlerden sadece birine sahip olabilir. Uygulamada, bir müşterinin birden fazla etiketi olabilir (yani, insanların beni akşam geç veya gece aramasını tercih ederim.). Ne düşünüyorsun?
nkhuyu

@nkhuyu, 1) etiket ayrıca olumsuz bir durum içerir. Her olumlu durum için "yeni bir etiket oluştur -" günün bir kısmı "ifadesini yanlış anladığınızı düşünüyorum (arama durumu = true). Bu adım, ek bir etiket oluşturmayı, aramanın başarılı olup olmadığını orijinal etiketi olduğu gibi bırakmayı amaçlamaktadır. 2) Evet, haklısın, cevabı bunu yansıtacak şekilde düzenledi.
Sandeep S. Sandhu

@ sandeep-s-sabdhu Yanıt için teşekkür ederiz. Evet, yanlış anladım. TAMAM. Ardından iki etiketiniz olacak (arama durumu, yeni etiketiniz). O zaman bu sorunu nasıl çözebilirsiniz? Düzenli bir sınıflandırma sorunu değil.
nkhuyu

@nkhuyu, bunu kaydettiğiniz için teşekkürler, şimdi 4. adımda bunu düzenledim ve açıkladım. Üç modelin her biri, günün belirli bir saatinde çağrıyı seçecek bir dizi potansiyel müşteri verecektir, çağrı merkezi bunu çağrılarına öncelik vermek için kullanır.
Sandeep S. Sandhu

1
Adım 1'i adım 3 izler ve bunları eğitim için uygun etiketler oluşturmayı önerdim. Ana sorgu - "Arama için uygun bir zaman bulmak zorunda ..." oldu. Bu sabah / öğlen / akşam veya saat gibi daha ayrıntılı olması karar vermek OP kadar.
Sandeep S. Sandhu

0

Lojistik bir regresyon kullanırdım - örneklemlere ihtiyaç duymadıkları yere ihtiyacınız olacak. Sonra saati mevsimsel bir kukla regresör olarak değerlendiririm (23 saat kukla değişkenler olarak ve bir kişinin kesişmeye akmasına izin verir).

Eğer mevsimsel bir kukla regresör olarak davranmazsanız, bir tür dönüşüm gerçekleştirmeniz gerekecektir, çünkü ilişki doğrusal olmayacaktır.

Birisi daha önce öğleden sonra, vb. Kategorik bir değişken olarak değiştirmeyi önerdi. Bu kötü bir fikir çünkü ayrıntıya sahipsiniz ve orada ayrıntıyı kaybediyorsunuz. Bu ilişkiyi doğrusal hale getirmek için optimal binning kullanmaya benzer bir etkiye sahip olacaktır, ancak yine de bunun işe yarayacağını düşünmüyorum. Mevsimsel kukla regresörleri deneyin.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.