Çekirdek Bant Genişliği: Scott'ın Silverman'ın kuralları


14

Herkes bant genişliği seçimi için Scott ve Silverman'ın başparmak kuralları arasındaki farkı açık bir şekilde açıklayabilir mi? Özellikle biri ne zaman diğerinden daha iyi? Temeldeki dağıtım ile ilgili mi? Numune sayısı?

PS : SciPy koduna atıfta bulunuyorum .


1
Ben de python bilmek istemiyorum. Sadece hangi kuralı ve ne zaman kullanacağını anlamada yardım istiyorum.
2014

Yanıtlar:


11

Koddaki yorumlar, ikisini özdeş olarak tanımlamaktadır (sabitte nispeten küçük bir fark bir yana).

cAn1/5Ac

3.49sn1/3nclass.scott

Kodun "Scott tahmini" olarak adlandırdığı 1.059, Silverman'ın (önceki) kitabındadır (bağlantınızdaki Silverman referansının p45 koduna bakın - Scott'ın türetilmesi, atıfta bulundukları kitabın p130-131'inde bulunur). Bu normal bir teori tahmininden gelir.

1.059σ

Aσ

Daha önce önerdiğim şeylere benzer nedenlerle, Silverman 1.059'u azaltmayı öneriyor (aslında kitabında Scott gibi 1.059'u değil, 1.06'yı kullanıyor). O, IMSE'de normalde% 10'dan fazla verim kaybetmeyen, 0.9'un geldiği düşük bir değer seçer.

Bu nedenle her iki binwidth de normalde IMSE-optimal binwidth'e dayanır, biri sağda optimumda, diğerinde (yaklaşık% 15 daha küçük, optimumda normalin verimliliğinin% 90'ına ulaşmak için). [Her ikisine de "Silverman" tahminleri derim . Neden 1.059'u Scott için adlandırdıklarını bilmiyorum.]

Bence her ikisi de çok büyük. Yoğunluğun IMSE-optimal tahminlerini elde etmek için histogramları kullanmıyorum. Eğer (IMSE anlamında optimal olan yoğunluk tahminlerini elde etmek) yapmak istediğim şeyse, bu amaçla histogramları kullanmak istemezdim.

Histogramlar daha gürültülü tarafta olmalıdır (gözün gerekli düzeltmeyi yapmasına izin verin). Neredeyse her zaman bu tür kuralların verdiği varsayılan kutu sayısını ikiye katlar (veya daha fazlasını). Bu yüzden 1.06 veya 0.9 kullanmazdım, 0.5 civarında bir şey kullanmaya eğilimliydim, belki de gerçekten büyük örnek boyutlarında daha az.

Aralarında seçim yapmak için gerçekten çok az şey var, çünkü her ikisi de verilerde neler olduğunu bulmak için çok fazla sayıda kutu veriyor (en azından küçük örnek boyutlarında, buraya bakın) .

[1]: Scott, DW (1979), "Optimal ve veri tabanlı histogramlarda," Biometrika , 66 , 605-610.


Scipy Belgeye göre burada , Scott kuraldır: n ** (- 1./(d+4)). Koda bakarak, kuralı "scotts_factor" ile aynı anlamadığımı fark ettim. Bant genişliğinin çok büyük olduğu konusunda haklısınız. Sayısal bant genişliği seçimi hakkında yeni bir soru açacağım. Teşekkürler.
xrfang

d=1n1/5Ac

@ Glen_b-ReinstateMonica Burada gönderdiğim soruyu inceleyebilir misiniz ? Büyük bir örneklem büyüklüğü kullanıldığında Silverman'ın kuralının getirebileceği sorunları gösteriyorum. Neler olduğunu detaylı olarak cevaplayabilir misiniz?
user269666
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.