Fiyatlar nasıl modellenir?


15

Diye sordum bu soruyu matemathics Stack Exchange sitesinde ve burada sormak önerildi.

Bir hobi projesi üzerinde çalışıyorum ve aşağıdaki sorunla ilgili yardıma ihtiyacım var.

Biraz bağlam

Diyelim ki özelliklerin açıklaması ve fiyatı olan bir öğe koleksiyonu var. Arabaların ve fiyatların bir listesini düşünün. Tüm otomobiller, motor boyutu, renk, beygir gücü, model, yıl vb. Gibi bir özellik listesine sahiptir. Her marka için böyle bir şey:

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

Daha da ileri giderek, fiyatlara sahip otomobillerin listesi bir miktar zaman aralığıyla yayınlanır, bu da geçmiş fiyat verilerine erişebileceğimiz anlamına gelir. Her zaman tam olarak aynı arabaları içermeyebilir.

Sorun

Bu temel bilgilere dayanarak herhangi bir araba için fiyatların nasıl modelleneceğini anlamak istiyorum, en önemlisi ilk listede olmayan arabalar.

Ford, v6, red, automatic, 130hp, 2009

Yukarıdaki araba için, listedeki ile neredeyse aynı, beygir gücü ve yılda biraz farklı. Bunu fiyatlandırmak için neye ihtiyaç var?

Aradığım şey pratik ve basit bir şey, ama aynı zamanda böyle bir şeyi modellemek için daha karmaşık yaklaşımları duymak istiyorum.

Ne denedim

Şimdiye kadar denediğim şey:

1) araba X aramak için geçmiş verileri kullanma. Bulunamadığı takdirde, fiyat yok. Bu elbette çok sınırlıdır ve kişi bilinen arabaların zaman içinde fiyatlarını değiştirmek için bunu sadece bir süre bozulma ile birlikte kullanabilir.

2) fiyatlandırılmış bir örnek araba ile birlikte bir araba özelliği ağırlıklandırma şeması kullanarak. Temelde bir taban fiyat ve özellikler sadece bazı faktör ile değiştirmek olduğunu. Buna dayanarak herhangi bir arabanın fiyatı elde edilir.

Birincisi yeterli olmadığını, ikincisi her zaman doğru olmadığını kanıtladı ve ağırlıkları kullanmak için en iyi yaklaşıma sahip olamayabilirdim. Bu da ağırlıkların korunmasında biraz ağır görünüyor, bu yüzden tarihsel verileri ağırlık almak veya başka bir şey almak için bir şekilde istatistik olarak kullanmanın bir yolu olduğunu düşündüm. Nereden başlayacağımı bilmiyorum.

Diğer önemli hususlar

  • sahip olduğum bazı yazılım projelerine entegre edeceğim. Ya mevcut kütüphaneleri kullanarak ya da algoritmayı kendim yazarak.
  • yeni geçmiş veriler geldiğinde hızlı yeniden hesaplama.

Böyle bir soruna nasıl yaklaşılabileceğine dair herhangi bir öneriniz var mı? Tüm fikirler hoş geldiniz daha vardır.

Şimdiden çok teşekkürler ve önerilerinizi okumak için sabırsızlanıyoruz!

Yanıtlar:


11

"Pratik" ve "basit" en küçük kareler regresyonunu önerir . Kurulumu kolay, çok sayıda yazılımla (R, Excel, Mathematica, herhangi bir istatistik paketi) kolay, yorumlanması kolay ve ne kadar doğru olmak istediğinize ve ne kadar zor olduğunuza bağlı olarak birçok şekilde genişletilebilir. çalışmaya istekli.

Bu yaklaşım esas olarak "ağırlıklandırma şemanızdır" (2), ancak ağırlıkları kolayca bulur, mümkün olduğunca fazla doğruluk sağlar ve güncellenmesi kolay ve hızlıdır. En küçük kareler hesaplamaları için çok sayıda kütüphane vardır .

Motor tipi, güç, vb - - ama aynı zamanda Size listelenen değişkenleri sadece içerecek şekilde yardımcı olacaktır yaş arabanın. Ayrıca, enflasyon fiyatlarını da ayarladığınızdan emin olun.


Satıldı! Tam olarak aradığım şey bu! Hepsi bu kadar yeni olduğum için önerileri karşılaştırmakta sorun yaşıyorum, bu yüzden en az kareler regresyonunun çoklu regresyon ve "hedonik fiyatlandırma" ile nasıl karşılaştırılacağını merak ediyorum. Bunlar, başlangıçta yayınladığım matematik sitesinde aldığım öneriler. Örneğin en küçük kareler regresyonunu kullanırken neyi düzeltiyorum? Temel olarak, bu yaklaşımı kullanırken bilmem gereken bir şey var mı?
murrekatt

ayrıca bu öneri için teşekkürler. Çok iyi görünüyor. Nasıl kullanacağımı görmeye nasıl başlayabileceğime dair bir fikir edinmek için daha fazla okumam gerekecek.
murrekatt

3
@Mpiktas ve @dimitrij celov tarafından gönderilen uyarılarla anlaşmamı kabul etmek ve ifade etmek istiyorum. Fiyat analizleri , bir parçası oldukları ekonomik sistemler kadar karmaşık olabilir - ve çoğu durumda olması gerekir. Bununla birlikte, amaçlanan uygulama (bir hobi) ve OP'nin istatistiksel modelleme yeteneklerinde açıkça işaret edilen sınırlamalar nedeniyle, basitlik, kullanım kolaylığı ve yorumlanabilirliğe büyük önem vermeliyiz. Açıkçası, henüz en az kareye sahip olmayan biri, hemen atlamayacak ve tam gelişmiş ekonometrik modeller oluşturmaya başlamayacak.
whuber

5

@Whuber ile doğrusal regresyonun bir yol olduğunu kabul ediyorum, ancak sonuçları yorumlarken dikkatli olunmalıdır. Sorun şu ki, ekonomide fiyat her zaman talep ile ilgilidir. Talep yükselirse fiyatlar yükselir, talep azalırsa fiyatlar düşer. Böylece fiyat talebe göre belirlenir ve karşılığında talep de fiyata göre belirlenir. Dolayısıyla, fiyatı talep olmadan bazı özelliklerden gerileme olarak modellersek, regresyon tahminlerinin atlanan değişken önyargı nedeniyle yanlış olacağı konusunda gerçek bir tehlike vardır .


@mpiktas: teşekkürler. Ne demek istediğini anlıyorum. Bu düşündüğüm bir şeydi, ancak soruyu nasıl soracağımı veya ekleyeceğimi tam olarak bilmiyordum. Kişi açıkladığınız şeyle nasıl başa çıkıyor? Bu ayrı bir problem midir ve siz yazarken sonuçları değerlendirirken göz önünde bulundurulmalı mıdır, yoksa bu diğer bazı yaklaşımlarla bütünleştirilmiştir ve en küçük kareler regresyonunun bir parçası değildir? Kendimi nasıl formüle edeceğimizden emin değilim, ama bunu hesaba katan yaklaşımlar var ve olmayanlar mı? Yani "yapma" için sonuçları yorumlamalıyız?
murrekatt

3
@murekatt, talep üzerine ek verileriniz yoksa, ancak fiyat için modele ihtiyacınız varsa, bununla ekstra özen göstererek ilgilenirsiniz. Bu, katsayıların istatistiksel önemine daha az dikkat edilmesi, ancak performans tahminine daha fazla dikkat edilmesi anlamına gelir. Esasen bu, regresyonun kara kutu olarak ele alınması ve model öngörme performansının model geçerliliğinin ölçüsü olarak kullanılması anlamına gelir. Bu, çapraz doğrulamanın kullanılması, örneklerin eğitilmesi ve test edilmesi için veri bölümünün kullanılması anlamına gelir.
mpiktas

@mpiktas: "ek veriler" ile ne demek istiyorsun? Lütfen araba bağlamında buna bir örnek verebilir misiniz?
murrekatt

1
@murrekatt, güncellenen Dmitrij'in cevabının sonuna bakın. Talep verileri önemlidir, bu yüzden verilen fiyatla ne kadar otomobil satıldınız varsa bu çok yardımcı olacaktır. Dahası, belirli özelliklere sahip belirli bir araba için fiyat değişikliklerinin nasıl yapıldığına dair verileriniz varsa, bu da modelinize yansıtılmalıdır
mpiktas

1
@murekatt, prensip olarak evet. Bence küçük bir başlangıç ​​yapmanız ve daha sonra ek özellikler eklemeniz gerekiyor. İlk sonuçlar hangi yöne ilerleyeceğinizi söyleyecektir.
mpiktas

4

Aradığım şey pratik ve basit bir şey, ama aynı zamanda böyle bir şeyi modellemek için daha karmaşık yaklaşımları duymak istiyorum.

Bir tür tartışmadan sonra, işlere ilişkin tam görüşüm

Sorun

Amaç: Otomobillerin nasıl daha iyi fiyatlandırılacağını anlamak

Bağlam: karar süreçlerinde insanlar birkaç soruyu çözüyorlar: bir arabaya ihtiyacım var mı, eğer yaparsam, en çok hangi özellikleri tercih ederim (fiyat dahil, çünkü rasyonel olmak, en iyi kalite / fiyat oranına sahip bir arabaya sahip olmak istiyorum) , farklı arabalar arasındaki özelliklerin sayısını karşılaştırın ve bunları birlikte değerlendirmeyi seçin .

Satıcı konumundan, fiyatı olabildiğince yükseğe ayarlamak ve arabayı mümkün olduğunca çabuk satmak istiyorum. Bu yüzden fiyatı çok yüksek olarak ayarlarsam ve aylarca bekliyorsam , piyasada talep edilmediği düşünülebilir ve çok talep edilen özellik kümelerine kıyasla 0 ile işaretlenebilir.

Gözlemler: belirli bir otomobilin özelliklerini pazarlık sürecinde belirlenen fiyatla ilişkilendiren gerçek anlaşmalar (bir önceki sözle ilgili olarak, anlaşmanın belirlenmesinin ne kadar sürdüğünü bilmek önemlidir).

Artıları: aslında piyasadan satın alınan şeyleri gözlemlemek, bu yüzden belirli bir araba satın almak isteyen yeterince yüksek rezervasyon fiyatı olan bir kişi olup olmadığını tahmin etmiyorsunuz

Eksileri:

  1. varsayımınız piyasanın verimli olmasıdır, yani gözlemlediğiniz fiyatlar dengeye yakındır
  2. satın almayan veya anlaşmayı ayarlamak için çok uzun süren araba özelliklerinin varyantlarını görmezden gelirsiniz , bu da öngörülerinizin taraflı olduğu anlamına gelir , bu nedenle aslında gizli değişken modellerle çalışırsınız
  3. Verileri uzun süre gözlemlemek, onları söndürmeniz gerekir, ancak araba yaşının dahil edilmesi bunu kısmen telafi eder.

Çözüm yöntemleri

İlki, whuber tarafından önerildiği gibi, klasik en küçük kareler regresyon modelidir

Artıları:

  1. ekonometrinin iş atı olduğu için en basit çözüm

Eksileri:

  1. şeyleri tam olarak gözlemlemediğinizi yok sayar ( gizli değişkenler )
  2. regresörler birbirinden bağımsız olarak hareket eder, bu nedenle temel model mavi Ford'u mavi Mercedes'ten farklı olarak beğenebileceğiniz gerçeğini göz ardı eder , ancak mavi ve Ford'dan gelen marjinal etkinin toplamı değildir.

Klasik regresyon durumunda, özgürlük dereceleriyle sınırlı olmadığınızdan, farklı etkileşim terimlerini de denemek için.

Bu nedenle, daha karmaşık bir çözüm ya tobit ya da Heckman modeli olacaktır , temel yöntemler hakkında daha fazla ayrıntı için AC Cameron ve PK Trivedi Mikroekonometri: yöntem ve uygulamalara danışmak isteyebilirsiniz .

Artıları:

  1. Eğer insanlar hiç özelliklerin bazılarını setleri veya özelliklerin bazılarının kümesi gibi küçük bir olasılık satın alınmak etti olmayabilir gerçeğini ayırmak yapmak den fiili fiyat ayarı
  2. sonuçlarınız önyargılı değil (veya ilk durumda olduğundan en az)
  3. Heckman durumunda, belirli bir aracı satın almak için motive eden nedenleri, bu araba için ne kadar ödemek istediğimin fiyatlandırma kararından ayırırsınız: ilki bireysel tercihlerden, ikincisi bütçe kısıtlamasından etkilenir

Eksileri:

  1. Her iki model de daha fazla açgözlüdür , yani eşitlemek için sor ve teklif arasındaki zaman uzunluğunu gözlemlemeliyiz (oldukça kısa 1 ise, 0 ise) veya pazar tarafından göz ardı edilen setleri gözlemlememiz gerekir.

Ve son olarak, fiyatın satın alınma olasılığını nasıl etkilediğiyle ilgileniyorsanız, bir çeşit logit modeliyle çalışabilirsiniz .

Burada ortak analizin uygun olmadığını kabul ettik, çünkü farklı bağlam ve gözlemleriniz var.

İyi şanslar.


Bağımlı değişkeni kategorik olan, kategorik olmayan fiyatlara çok uluslu bir logit modelini nasıl uygularsınız?
whuber

@Dmitrij Celov: Öneriniz için teşekkürler. Sorularınızı cevaplamaya çalışacağım. 1) Fiyat yok, benzer arabalara bakarak cevaplamak istediğim bilinmiyor. 2) Hangi değişkenin en ağır olduğunu bilmiyorum - bunu almayı umuyordum. 3) Ben özellikleri ve fiyatları ile araba listesine dayalı istiyorum herhangi bir özellik ile herhangi bir araba fiyatlandırmak mümkün.
murrekatt

Kj-1j10P(yben=1|yj=0)=11+e-β'(Xben-Xj)ybenyj

@murrekatt: 1) Yani en "değerli" özellikleri mi arıyorsunuz? 2) Logit tahmini parametreleri, oranlar ve olasılık oranları gibi güzelce yorumlanır, ancak multinomial logit, alakasız alternatiflerden bağımsız olarak bilinen zayıf bir özelliğe sahiptir 3) Listelenen fiyatların alakalı olduğundan, yani arabaların gerçekten satın alındığından emin olabilir misiniz? @whuber: Eğer bağımlı fiyat ise basit regresyon burada işe yarıyor, ama yine hangi fiyat? nerede yayınlandı? veya gerçek işlem mi?
Dmitrij Celov

2
@Dimitrij Price bağımsız bir değişken değildir: bağımlı bir değişkendir: "Bu temel bilgilere dayanarak herhangi bir otomobil için fiyatların nasıl modelleneceğini anlamak istiyorum." Korkarım bu yanlış anlama ile murrekatt'ı çok uzağa taşıyor olabilirsiniz.
whuber

4

Bana da doğrusal bir regresyon problemi gibi görünüyor, ama en yakın komşu KNN ne olacak . Her araba arasında bir mesafe formülü bulabilir ve fiyatı en yakın K (3) arasında ortalama olarak hesaplayabilirsiniz. Bir mesafe formülü, silindirlerdeki fark artı kapılardaki fark artı beygir gücündeki fark gibi öklidyalı olabilir.

Doğrusal regresyon ile giderseniz birkaç şey öneririm:

  • Enflasyonu hesaba katmak için dolar değerini günümüze kadar ölçeklendirin.
  • Verilerinizi dönemlere ayırın. Bahse girerim ww2 öncesi ve ww2 sonrası için bir modele ihtiyacınız olduğunu göreceksiniz. Bu sadece bir önsezi.
  • Aşırı takılmayı önlemek için modelinizi çapraz doğrulayın. Verilerinizi 5 parçaya bölün. 4 üzerinde eğitim ve 5. yığın üzerinde modeli urn. Hataları toplayın, durulayın, diğer parçalar için tekrarlayın.

Başka bir fikir, modeller arasında bir melez yapmaktır. Regresyon ve KNN'yi hem veri noktası olarak kullanın hem de nihai fiyatı ağırlıklı ortalama veya başka bir şey olarak oluşturun.


3

Söylenenlerin yanı sıra, daha önce yapılmış olan önerilerden pek de farklı olmayan, hedonik fiyatlandırma modelleri hakkındaki geniş literatüre bakmak isteyebilirsiniz . Aşağıya inen şey, bir kompozit malın niteliklerinin bir fonksiyonu olarak fiyatını açıklamaya çalışan bir regresyon modelidir.

Bu, örneğinizde tam olarak benzer bir nitelikler karışımı olmasa bile, bir otomobilin özelliklerini (beygir gücü, boyutu, markası vb.) Bilerek fiyatlandırmanıza olanak tanır. Gerçek durumdaki mülkler gibi esasen tekrarlanamayan varlıkların değerlemesinde çok popüler bir yaklaşımdır. Google'ı "hedonik modeller" için kullanıyorsanız, birçok referans ve örnek bulacaksınız.


@F. Tusell: Bu iyi bir tanımdı. Bunu diğer yayınlardan birlikte şaşırttım, ama bu benim gibi yeni başlayanlar için işleri iyi özetledi.
murrekatt
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.