Gerçekten herhangi bir iyi metin veya herhangi bir sınıflandırıcı girişleri için 'varolmayan' veri işleme nasıl örnekleri bulamadım. Eksik veriler hakkında çok şey okudum, ancak çok değişkenli girdilere göre var olmayan veya var olmayan veriler hakkında neler yapılabilir. Bunun çok karmaşık bir soru olduğunu ve kullanılan eğitim yöntemlerine bağlı olarak değişeceğini anlıyorum ...
Örneğin, iyi doğru verilere sahip birkaç koşucu için laptime tahmin etmeye çalışıyorsanız. Birçok girdi arasında, birçok girdi arasındaki olası değişkenler şunlardır:
- Giriş Değişkeni - İlk kez koşucu (E / H)
- Giriş Değişkeni - Önceki laptime (0 - 500 saniye)
- Giriş Değişkeni - Yaş
- Giriş Değişkeni - Yükseklik. . . çok daha fazla Giriş değişkeni vb.
Ve Çıktı Tahmincisi - Tahmini Çalışma Zamanı (0 - 500 saniye)
'2.Önceki laptime' için 'eksik değişken' birkaç yolla hesaplanabilir, ancak '1. İlk kez koşucu her zaman N'ye eşit olur. Ancak ilk kez koşucu için 'VAR OLMAYAN VERİ' için (burada '1. İlk koşucu' = Y) '2 için hangi değeri / tedaviyi vermeliyim. Önceki laptime '?
Örneğin, '2 atama. Önceki laptime '-99 veya 0 olarak dağılımı önemli ölçüde kırabilir ve yeni bir koşucunun iyi performans göstermiş gibi görünmesini sağlayabilir.
Mevcut eğitim yöntemlerim Lojistik regresyon, SVM, NN ve Karar ağaçlarını kullanıyor