Var olmayan (eksik olmayan) veriler nasıl işlenir?


11

Gerçekten herhangi bir iyi metin veya herhangi bir sınıflandırıcı girişleri için 'varolmayan' veri işleme nasıl örnekleri bulamadım. Eksik veriler hakkında çok şey okudum, ancak çok değişkenli girdilere göre var olmayan veya var olmayan veriler hakkında neler yapılabilir. Bunun çok karmaşık bir soru olduğunu ve kullanılan eğitim yöntemlerine bağlı olarak değişeceğini anlıyorum ...

Örneğin, iyi doğru verilere sahip birkaç koşucu için laptime tahmin etmeye çalışıyorsanız. Birçok girdi arasında, birçok girdi arasındaki olası değişkenler şunlardır:

  1. Giriş Değişkeni - İlk kez koşucu (E / H)
  2. Giriş Değişkeni - Önceki laptime (0 - 500 saniye)
  3. Giriş Değişkeni - Yaş
  4. Giriş Değişkeni - Yükseklik. . . çok daha fazla Giriş değişkeni vb.

Ve Çıktı Tahmincisi - Tahmini Çalışma Zamanı (0 - 500 saniye)

'2.Önceki laptime' için 'eksik değişken' birkaç yolla hesaplanabilir, ancak '1. İlk kez koşucu her zaman N'ye eşit olur. Ancak ilk kez koşucu için 'VAR OLMAYAN VERİ' için (burada '1. İlk koşucu' = Y) '2 için hangi değeri / tedaviyi vermeliyim. Önceki laptime '?

Örneğin, '2 atama. Önceki laptime '-99 veya 0 olarak dağılımı önemli ölçüde kırabilir ve yeni bir koşucunun iyi performans göstermiş gibi görünmesini sağlayabilir.

Mevcut eğitim yöntemlerim Lojistik regresyon, SVM, NN ve Karar ağaçlarını kullanıyor


Yanıtlar:


6

Var olmayan ilk kez koşucu önceki tur zamanı için özel bir değer atamak yerine, ilk tur koşucusu kuklaının tersi ile önceki tur zamanı için etkileşim terimini kullanmanız yeterlidir:

Yben=β0+β1FTR,ben+β2(N-FTR,ben)xPLTben+...

buraya

  • sizin giriş değişkeninizdir, Yben
  • diğer değişkenleriniz, ...
  • ilk kez koşucu için kukla,FTR,ben
  • PLTben
  • N-FTR,benFTR,ben=0

Sonra ilk kez koşucular için model olacak:

Yben=(β0+β1)+...

ve ilk kez koşmayan koşucular için:

Yben=β0+β2PLTben+...

8

Modelde hem (1) hem de (2) bulunduğunuz sürece maksimum olasılıkla donatılmış bir lojistik regresyon için, (2) için yeni koşucular verdiğiniz "varsayılan" değer ne olursa olsun, (1) için tahmin buna göre ayarlanır.

X1X2

η=α+β1X1+β2X2+...

X2

η=α+β1+...

oysa mevcut bir koşucu için:

η=α+β2X2+...

X2

η=α+β1'-99β2+...

β1'-99β2=β1

Tabii ki, maksimum olasılık kullanmıyorsanız (yani, bir tür ceza kullanıyorsunuz veya parametrelerden önce), cezayı / önceliği buna göre ayarlamadığınız sürece farklı değerler elde edersiniz. Model doğrusal değilse (örn. SVM, NN ve Karar ağaçları), bu argüman hiç işe yaramaz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.