Diyelim ki bir mağazanın satışını tahmin ediyoruz ve eğitim verilerimin iki özelliği var:
- Tarihlerle birlikte mağaza satışları hakkında ("Mağaza" alanı benzersiz değil)
- Mağaza türleri hakkında ("Mağaza" alanı burada benzersizdir)
Yani matris şöyle görünecektir:
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 |
| 2 | 5 | 2015-07-31 | 6064.0 | 625.0 | 1 | 1 | 0 |
| 3 | 5 | 2015-07-31 | 8314.0 | 821.0 | 1 | 1 | 0 |
| 4 | 5 | 2015-07-31 | 13995.0 | 1498.0 | 1 | 1 | 0 |
| 5 | 5 | 2015-07-31 | 4822.0 | 559.0 | 1 | 1 | 0 |
| 6 | 5 | 2015-07-31 | 5651.0 | 589.0 | 1 | 1 | 0 |
| 7 | 5 | 2015-07-31 | 15344.0 | 1414.0 | 1 | 1 | 0 |
| 8 | 5 | 2015-07-31 | 8492.0 | 833.0 | 1 | 1 | 0 |
| 9 | 5 | 2015-07-31 | 8565.0 | 687.0 | 1 | 1 | 0 |
| 10 | 5 | 2015-07-31 | 7185.0 | 681.0 | 1 | 1 | 0 |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]
ve
+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
| 1 | c | a | 1270 |
| 2 | a | a | 570 |
| 3 | a | a | 14130 |
| 4 | c | c | 620 |
| 5 | a | a | 29910 |
| 6 | a | a | 310 |
| 7 | a | c | 24000 |
| 8 | a | a | 7520 |
| 9 | a | c | 2030 |
| 10 | a | a | 3160 |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]
İkinci matris mağaza tipini, her birinin sattığı ürün çeşitlerini ve en yakın rakip mağazaya olan mesafeyi açıklar.
Ancak test verilerimde, Customers
ve Sales
alanları olmayan ilk matristeki bilgilerim var . Amaç verilen satış alanını tahmin etmektir.
- mağaza
- Haftanın günü
- tarih
- Açık (mağazanın açık olup olmadığı)
- Promosyon (mağazanın bir promosyonu olup olmadığı)
- StateHoliday (resmi tatil olsun)
Tahmin etmek için yukarıdaki madde işaretli alanlara dayalı bir sınıflandırıcıyı kolayca eğitebilirim, Sales
ancak eğitim verilerimde test verilerine girmeyeceğim ikinci matrisi nasıl kullanabilirim?
Mağaza türleri hakkındaki ikinci matrisin statik olduğunu varsaymak mantıklı mıdır ve bunu test verilerine kolayca katılabilir miyim?
Test verileri özellik setimde delikler varsa ne olur, diyelim ki test verilerindeki bazı satırlar için "Promosyon" değerlerim yok.
Customers
Veri rekabete çok özeldir. ML için genel olarak eksik değerlerle nasıl başa çıkacağınızdan emin değilseniz (boş Promo
değerler gibi ), bu soruyu yalnızca bu sorunla ilgili olarak değiştirmeye değer olabilir. Bu sitede zaten bazı cevaplar var, örneğin datascience.stackexchange.com/questions/8322/…