Girişin bir cep telefonu hesabının ilk 21 günü için zaman serisi ses kullanım verileri (saniye cinsinden) olduğu bir zaman serisi sınıflandırma problemi üzerinde çalışıyorum. İlgili hedef değişken, söz konusu hesabın 35-45 günlük aralıkta iptal edilip edilmediğidir. Bu bir ikili sınıflandırma problemidir.
Şimdiye kadar denediğim yöntemlerden (değişen derecelerde) çok kötü sonuçlar alıyorum. Önce k-NN sınıflandırmasını denedim (çeşitli değişikliklerle) ve son derece kötü sonuçlar aldım. Bu beni zaman serisinden özellikler çıkarmaya yönlendirdi - yani ortalama, varyans, maks, min, toplam sıfır gün, toplam son sıfır gün, ilk yarı ortalama ile ikinci yarı ortalama arasındaki fark, vb. Ve en öngörücü özellikler toplam gibi görünüyordu. sıfır gün ve toplam izleyen sıfır gün (birkaç sınıflandırma algoritması kullanarak). Bu en iyi performansı gösterdi ancak performans hala çok iyi değildi.
Bir sonraki stratejim, eğitim setimdeki olumsuz örnekleri çok az örneklemekten ötürü fazla örneklemekti. Bu, daha doğru iptal tahmini ile sonuçlandı, ancak daha yanlış pozitifler pahasına.
Belki de zaman serisi kullanım verilerinin kendisinin sadece çok öngörücü olmadığını düşünmeye başlıyorum (sağduyu olması gerektiğini söylüyor). Belki de düşünmediğim gizli bir değişken var. Verilere bakmak da bazı garip davranışlar gösteriyor. yani bazı örnekler çok az veya azalan kullanım (veya bazen hiç yok) gösterir ve iptal etmez ve bazıları iptal eden kullanımda bir artış gösterir. Belki de bu çelişkili davranış, bir sınıflandırıcı için çok açık bir karar sınırı oluşturmaz.
Hata için bir başka olası kaynak, birçok eğitim örneğinin çok seyrek olmasıdır (yani 0 kullanımlı günler). Henüz denemediğim bir fikir, zaman serilerini bölümlere ayırmak ve bu şekilde bazı özellikler üretmek, ancak yüksek umutlarım yok.