Özellik mühendisliği hakkında pratik bir sorum var ... lojistik regresyon kullanarak ev fiyatlarını tahmin etmek istiyorum ve posta kodu da dahil olmak üzere bir dizi özellik kullandım. Sonra özellik önemini kontrol ederek, zip'in oldukça iyi bir özellik olduğunu fark ettim, bu yüzden zip tabanlı bazı özellikler eklemeye karar verdim - örneğin, nüfus sayım bürosuna gidiyorum ve ortalama gelir, nüfus, okul sayısı ve sayıları alıyorum Her zipin hastanelerinin. Bu dört yeni özellik sayesinde model performanslarını şimdi daha iyi buluyorum. Bu yüzden zip ile ilgili daha fazla özellik ekliyorum ... Ve bu döngü devam ediyor. Sonunda modele zip ile ilgili bu özellikler hakim olacak, değil mi?
Sorularım:
- Bunları ilk etapta yapmak mantıklı mı?
- Evetse, bu döngüyü durdurmak için ne zaman uygun olduğunu nasıl bilebilirim?
- Değilse, neden olmasın?