Verileri test etmek egzersiz verilerinden daha az özelliğe sahip olduğunda ne yapmalı?


10

Diyelim ki bir mağazanın satışını tahmin ediyoruz ve eğitim verilerimin iki özelliği var:

  • Tarihlerle birlikte mağaza satışları hakkında ("Mağaza" alanı benzersiz değil)
  • Mağaza türleri hakkında ("Mağaza" alanı burada benzersizdir)

Yani matris şöyle görünecektir:

+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek |    Date    |  Sales  | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
|   1   |     5     | 2015-07-31 |  5263.0 |   555.0   |  1   |   1   |      0       |
|   2   |     5     | 2015-07-31 |  6064.0 |   625.0   |  1   |   1   |      0       |
|   3   |     5     | 2015-07-31 |  8314.0 |   821.0   |  1   |   1   |      0       |
|   4   |     5     | 2015-07-31 | 13995.0 |   1498.0  |  1   |   1   |      0       |
|   5   |     5     | 2015-07-31 |  4822.0 |   559.0   |  1   |   1   |      0       |
|   6   |     5     | 2015-07-31 |  5651.0 |   589.0   |  1   |   1   |      0       |
|   7   |     5     | 2015-07-31 | 15344.0 |   1414.0  |  1   |   1   |      0       |
|   8   |     5     | 2015-07-31 |  8492.0 |   833.0   |  1   |   1   |      0       |
|   9   |     5     | 2015-07-31 |  8565.0 |   687.0   |  1   |   1   |      0       |
|   10  |     5     | 2015-07-31 |  7185.0 |   681.0   |  1   |   1   |      0       |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]

ve

+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
|   1   |     c     |     a      |         1270        |
|   2   |     a     |     a      |         570         |
|   3   |     a     |     a      |        14130        |
|   4   |     c     |     c      |         620         |
|   5   |     a     |     a      |        29910        |
|   6   |     a     |     a      |         310         |
|   7   |     a     |     c      |        24000        |
|   8   |     a     |     a      |         7520        |
|   9   |     a     |     c      |         2030        |
|   10  |     a     |     a      |         3160        |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]

İkinci matris mağaza tipini, her birinin sattığı ürün çeşitlerini ve en yakın rakip mağazaya olan mesafeyi açıklar.

Ancak test verilerimde, Customersve Salesalanları olmayan ilk matristeki bilgilerim var . Amaç verilen satış alanını tahmin etmektir.

  • mağaza
  • Haftanın günü
  • tarih
  • Açık (mağazanın açık olup olmadığı)
  • Promosyon (mağazanın bir promosyonu olup olmadığı)
  • StateHoliday (resmi tatil olsun)

Tahmin etmek için yukarıdaki madde işaretli alanlara dayalı bir sınıflandırıcıyı kolayca eğitebilirim, Salesancak eğitim verilerimde test verilerine girmeyeceğim ikinci matrisi nasıl kullanabilirim?

Mağaza türleri hakkındaki ikinci matrisin statik olduğunu varsaymak mantıklı mıdır ve bunu test verilerine kolayca katılabilir miyim?

Test verileri özellik setimde delikler varsa ne olur, diyelim ki test verilerindeki bazı satırlar için "Promosyon" değerlerim yok.


Bunu Kaggle forumunda sorabileceğinizi biliyorsunuz ve zaten cevaplandı : kaggle.com/c/rossmann-store-sales/forums/t/17137/… ve kaggle.com/c/rossmann-store-sales/forums / t / 16730 /…
Neil Slater

Oooo, kaggle asaletimi affedin. Kimse benim ellerimi tutmadan ilk kaggle =)
alvas

1
Sorun değil. CustomersVeri rekabete çok özeldir. ML için genel olarak eksik değerlerle nasıl başa çıkacağınızdan emin değilseniz (boş Promodeğerler gibi ), bu soruyu yalnızca bu sorunla ilgili olarak değiştirmeye değer olabilir. Bu sitede zaten bazı cevaplar var, örneğin datascience.stackexchange.com/questions/8322/…
Neil Slater

Yanıtlar:



2

Sorunu belirtme şeklinizde bir sorun olabileceğini düşünüyorum. Test verilerinin iki alanı olmadığını söylüyorsunuz, ancak bu doğru olamaz.

Tüm verilerinizi alıp 2 gruba, eğitim setine ve test setine bölmelisiniz. % 80 -% 20 veya% 70 -% 30 oranında. Daha sonra algoritmanızı egzersiz setindeki verilerle eğitir ve modelin doğruluğunu test setindeki verilerle test edersiniz.

Aldığınız doğruluk, modelinizin doğru olma olasılığıdır. Ya da başka bir şekilde, bir dahaki sefere bir satış tahmin etmek için modelinizi kullandığınızda, doğruluk tahmininizin gerçek olma olasılığıdır


Bence OP'nin "test verileri" terimini kullanmasıyla başa çıkıyorsunuz ve sorunun özünü tamamen kaçırıyorsunuz ...
Patrick Coulombe
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.