Diye sordum bu soruyu matemathics Stack Exchange sitesinde ve burada sormak önerildi.
Bir hobi projesi üzerinde çalışıyorum ve aşağıdaki sorunla ilgili yardıma ihtiyacım var.
Biraz bağlam
Diyelim ki özelliklerin açıklaması ve fiyatı olan bir öğe koleksiyonu var. Arabaların ve fiyatların bir listesini düşünün. Tüm otomobiller, motor boyutu, renk, beygir gücü, model, yıl vb. Gibi bir özellik listesine sahiptir. Her marka için böyle bir şey:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
Daha da ileri giderek, fiyatlara sahip otomobillerin listesi bir miktar zaman aralığıyla yayınlanır, bu da geçmiş fiyat verilerine erişebileceğimiz anlamına gelir. Her zaman tam olarak aynı arabaları içermeyebilir.
Sorun
Bu temel bilgilere dayanarak herhangi bir araba için fiyatların nasıl modelleneceğini anlamak istiyorum, en önemlisi ilk listede olmayan arabalar.
Ford, v6, red, automatic, 130hp, 2009
Yukarıdaki araba için, listedeki ile neredeyse aynı, beygir gücü ve yılda biraz farklı. Bunu fiyatlandırmak için neye ihtiyaç var?
Aradığım şey pratik ve basit bir şey, ama aynı zamanda böyle bir şeyi modellemek için daha karmaşık yaklaşımları duymak istiyorum.
Ne denedim
Şimdiye kadar denediğim şey:
1) araba X aramak için geçmiş verileri kullanma. Bulunamadığı takdirde, fiyat yok. Bu elbette çok sınırlıdır ve kişi bilinen arabaların zaman içinde fiyatlarını değiştirmek için bunu sadece bir süre bozulma ile birlikte kullanabilir.
2) fiyatlandırılmış bir örnek araba ile birlikte bir araba özelliği ağırlıklandırma şeması kullanarak. Temelde bir taban fiyat ve özellikler sadece bazı faktör ile değiştirmek olduğunu. Buna dayanarak herhangi bir arabanın fiyatı elde edilir.
Birincisi yeterli olmadığını, ikincisi her zaman doğru olmadığını kanıtladı ve ağırlıkları kullanmak için en iyi yaklaşıma sahip olamayabilirdim. Bu da ağırlıkların korunmasında biraz ağır görünüyor, bu yüzden tarihsel verileri ağırlık almak veya başka bir şey almak için bir şekilde istatistik olarak kullanmanın bir yolu olduğunu düşündüm. Nereden başlayacağımı bilmiyorum.
Diğer önemli hususlar
- sahip olduğum bazı yazılım projelerine entegre edeceğim. Ya mevcut kütüphaneleri kullanarak ya da algoritmayı kendim yazarak.
- yeni geçmiş veriler geldiğinde hızlı yeniden hesaplama.
Böyle bir soruna nasıl yaklaşılabileceğine dair herhangi bir öneriniz var mı? Tüm fikirler hoş geldiniz daha vardır.
Şimdiden çok teşekkürler ve önerilerinizi okumak için sabırsızlanıyoruz!