Benim diğer esinlenerek soruya , bir tane bir işlev bir olasılık yoğunluk fonksiyonu (PDF) modunu bulur nasıl sormak istiyorum ?
Bunun için bir "yemek kitabı" prosedürü var mı? Görünüşe göre, bu görev ilk başta göründüğünden çok daha zor.
Benim diğer esinlenerek soruya , bir tane bir işlev bir olasılık yoğunluk fonksiyonu (PDF) modunu bulur nasıl sormak istiyorum ?
Bunun için bir "yemek kitabı" prosedürü var mı? Görünüşe göre, bu görev ilk başta göründüğünden çok daha zor.
Yanıtlar:
"Mod" demek dağıtımın sadece bir tane olduğunu gösterir. Genel olarak bir dağılımın birçok modu olabilir veya (tartışmasız) hiçbiri olmayabilir.
Birden fazla mod varsa, hepsini mi yoksa sadece küresel modu mı (tam olarak varsa) belirtmeniz gerekir.
Kendimizi tekdüze olmayan dağılımlarla * sınırlandırdığımızı varsayarsak , "the" modundan bahsedebiliriz, fonksiyonların daha genel olarak maksimumlarını bulmakla aynı şekilde bulunurlar.
* sayfanın "mod" terimi olarak birden çok anlamı olduğunu ve "unimodal" " terimini de içerdiğini ve modun birkaç tanımını sunduğunu unutmayın. ve - bunları tanımlama stratejisini değiştirir. Özellikle , unimodalitenin açılış paragrafında ne kadar "genel" ifadesinin ne kadar genel olduğuna dikkat edin, " unimodality, yalnızca bir şekilde tanımlanan tek bir en yüksek değerin olduğu anlamına gelir "
Bu sayfada sunulan bir tanım:
Sürekli olasılık dağılım modu, olasılık yoğunluk fonksiyonunun (pdf) maksimum değerine ulaştığı bir değerdir
Bu nedenle , modun belirli bir tanımı göz önüne alındığında , işlevlerle daha genel olarak ilgilenirken belirli bir "en yüksek değer" tanımını bulacağınız şekilde (dağıtımın bu tanım altında unimodal olduğu varsayılarak).
Matematikte, koşullara bağlı olarak, bu tür şeyleri tanımlamak için çeşitli stratejiler vardır. Kısa bir tartışma sağlayan Maxima ve minima Wikipedia sayfasının "İşlevsel maksimum ve minimum bulma" bölümüne bakın .
Örneğin, işler yeterince güzelse - diyelim ki yoğunluk fonksiyonunun sürekli ilk türevi olduğu sürekli rasgele bir değişkenle uğraşıyoruz - yoğunluk fonksiyonunun türevinin nerede olduğunu bulmaya çalışarak devam edebilirsiniz. hangi kritik nokta tipidir (maksimum, minimum, yatay bükülme noktası). Yerel bir maksimum olan tam olarak böyle bir nokta varsa, tek modlu bir dağılımın modu olmalıdır.
Bununla birlikte, genel olarak işler daha karmaşıktır (örneğin, mod kritik bir nokta olmayabilir) ve işlevlerin maksimumlarını bulmak için daha geniş stratejiler devreye girer.
Bazen, türevlerin cebirsel olarak sıfır olduğu yerleri bulmak zor veya en azından hantal olabilir, ancak maxima'yı başka şekillerde tanımlamak hala mümkün olabilir. Örneğin, bir tek modlu dağılımın kipinin tanımlanmasında simetri ile ilgili hususları harekete geçirebilir. Veya sayısal olarak bir mod bulmak için bilgisayarda bir çeşit sayısal algoritma çağırabilir.
İşlev, hareketsiz ve en azından parça parça sürekli olsa bile, kontrol etmeniz gereken tipik şeyleri gösteren bazı durumlar.
Bu nedenle, örneğin, uç noktaları (orta diyagram), türev değişikliklerinin işaret ettiği noktaları (ancak sıfır olmayabilir; ilk diyagram) ve süreksizlik noktalarını (üçüncü diyagram) kontrol etmeliyiz.
Bazı durumlarda, işler bu üç şey kadar düzgün olmayabilir; uğraştığınız belirli fonksiyonun özelliklerini anlamaya çalışmalısınız.
İşlevler oldukça "güzel" olsa bile, sadece yerel maksimumu bulmak çok daha karmaşık olabilir (örneğin, bunu yapmak için sayısal yöntemler pratik anlamda başarısız olabilir, hatta mantıksal olarak başarılı olması gerektiğinde) çok değişkenli duruma dokunmadım Sonuçta).
Bu cevap, tamamen belirli bir yönteme vurgulanarak bir örnekten mod tahminine odaklanmaktadır. Analitik veya sayısal olarak yoğunluğu zaten bildiğiniz herhangi bir güçlü his varsa, tercih edilen cevap kısaca, @Glen_b'den gelen cevapta olduğu gibi, tek bir maksimum veya çoklu maksimumları aramaktır.
"Yarım numune modları" en kısa uzunlukta yarım numunenin özyinelemeli seçimi kullanılarak hesaplanabilir. Kökleri daha uzun olmasına rağmen, Bickel ve Frühwirth (2006) tarafından bu fikrin mükemmel bir sunumu yapılmıştır.
Modu, sabit sayıda gözlem içeren en kısa aralığın orta noktası olarak tahmin etme fikri, en azından Dalenius'a (1965) kadar uzanır. Modun diğer tahmin edicileri hakkında Robertson ve Cryer (1974), Bickel (2002) ve Bickel ve Frühwirth (2006) 'a bakınız.
Numunesinin sıra istatistikleri değerleri ile tanımlanan .
Yarı örnekleme modu burada iki kural kullanılarak tanımlanır.
Kural 1. ise, yarım örnek modu . Eğer , yarı örnek modu . Eğer , yarı örnek modu , eğer ve olarak daha yakın ve , tersi doğruysa ve aksi takdirde.x ( 2 )
Kural 2. , veya daha az değerle solana kadar özyinelemeli seçim uygularız . Önce . sırasından derecesine kadar olan verinin en kısa yarısı, üzerinde en aza indirecek şekilde tanımlanır . Daha sonra bu değerlerinin en kısa yarısı, vb. Kullanılarak tanımlanır. İşlemi tamamlamak için Kural 1'i kullanın.
En kısa yarıyı belirleme fikri, JW Tukey tarafından adlandırılan "kısa" larda uygulanır ve Andrews, Bickel, Hampel, Huber, Rogers ve Tukey (1972, s.26) tarafından yer tahmin edicilerinin Princeton sağlamlık çalışmasında tanıtılır kısa yarı uzunlukta ortalama için . Hampel (1975) tarafından yapılan bir öneri üzerine inşa edilen Rousseeuw (1984), en kısa yarının orta noktasının konumun en az medyan (LMS) tahmincisi olduğuna dikkat çekti için. Regresyon ve diğer problemlere LMS uygulamaları ve ilgili fikirleri için Rousseeuw (1984) ve Rousseeuw ve Leroy (1987) 'a bakınız. Bu LMS orta noktasına bazı yeni literatürde de kısalık denir (örn. Maronna, Martin ve Yohai 2006, s.48). Ayrıca, Grübel (1988) unvanının gösterdiği gibi, en kısa yarıya da bazen en kısa yarı denir. Stata uygulaması ve daha fazla ayrıntı için SSC'den bakın
shorth
.
Bazı geniş fırça yorumları, pratik veri analistlerinin yanı sıra matematiksel veya teorik istatistikçiler açısından yarı örnek modların avantajlarını ve dezavantajlarını takip eder. Proje ne olursa olsun, sonuçları standart özet ölçümlerle (örneğin, medyanlar veya geometrik ve harmonik araçlar dahil araçlar) karşılaştırmak ve sonuçları dağılım grafikleriyle ilişkilendirmek akıllıca olacaktır. Ayrıca, ilginiz bimodalite veya multimodality'nin varlığında veya boyutundaysa, yoğunluk fonksiyonunun uygun şekilde düzleştirilmiş tahminlerine doğrudan bakmak en iyisi olacaktır.
Mod tahmini Verinin en yoğun olduğu yeri özetleyerek, yarı örnekli mod araç kutusuna modun otomatik bir tahmincisini ekler. Histogramlardaki tepe noktalarını veya hatta çekirdek yoğunluğu çizimlerini belirlemeye dayanan modun daha geleneksel tahminleri, bin kökeni veya genişliği veya çekirdek tipi ve çekirdek yarım genişliği hakkındaki kararlara duyarlıdır ve her durumda otomatikleştirilmesi daha zordur. Tek modlu ve yaklaşık olarak simetrik olan dağılımlara uygulandığında, yarı örnekleme modu ortalama ve orta değerlere yakın olacak, ancak her iki kuyruktaki aykırı değerlere göre daha dirençli olacaktır. Tek modlu ve asimetrik dağılımlara uygulandığında, yarı örnekleme modu, ortalama veya medyandan başka yöntemlerle tanımlanan moda çok daha yakın olacaktır.
Basitlik Yarı örnek mod fikri, kendilerini istatistik uzmanı olarak görmeyen öğrenci ve araştırmacılara açıklamak oldukça basittir.
Grafik yorumlama Yarı örnek modu, çekirdek yoğunluk grafikleri, kümülatif dağılım ve kantil grafikler, histogramlar ve gövde ve yaprak grafikleri gibi standart dağılım göstergeleriyle kolayca ilişkilendirilebilir.
Aynı zamanda,
Tüm dağıtımlar için yararlı değildir Yaklaşık J-şekilli dağıtımlara uygulandığında, yarım örnek modu verilerin minimumuna yaklaşır. Yaklaşık olarak U-şekilli dağılımlara uygulandığında, yarım numune modu, dağılımın hangi yarısının daha yüksek ortalama yoğunluğa sahip olacağı dahilinde olacaktır. Her iki davranış da özellikle ilginç veya kullanışlı görünmüyor, ancak aynı şekilde J-şekilli veya U-şekilli dağılımlar için tek mod benzeri özetler için çok az çağrı var. U şekilleri için, bimodality, geçersiz değilse, tek modlu bir tartışma fikrini ortaya çıkarır.
Kravatlar En kısa yarı benzersiz bir şekilde tanımlanmamış olabilir. Ölçülen verilerle bile, raporlanan değerlerin yuvarlanması sık sık bağlara neden olabilir. İki veya daha fazla yarı ile ne yapılacağı literatürde çok az tartışılmıştır. Bağlı yarımların üst üste gelebileceğini veya ayrık olabileceğini unutmayın.
Stata uygulanması kabul edilen prosedür hsmode
verilen bağları sürece benzersiz tanımlanmamış sırayla olduğunu dışında sırayla ortadaki kullanmaktır garip. En keyfi olarak ve yukarı doğru sayarak alınır. Bu nedenle bu 2'nin 1'i, 3 veya 4'ün 2'si vb.
Bu tie-break kuralının bazı ilginç sonuçları var. Bu nedenle kurallar , yarı örnekleme modu olarak , diğer tüm zeminlerde doğal olacağı gibi değil . Aksi takdirde, bu sorun ortaya çıkabilir çünkü bir pencerenin simetrik olarak yerleştirilmesi için pencere uzunluğu tek ve hatta için bile diğer desiderata verildiğinde elde edilmesi zor olan, pencere uzunluğu asla numune boyutuyla azalmamalıdır. Bunun makul büyüklükteki veri kümelerinde küçük bir sorun olduğuna inanmayı tercih ediyoruz.
Pencere uzunluğu için neden anlamına geldiği tartışılmamıştır. Açıkçası, hem tek hem de için bir pencere uzunluğu veren bir kurala ihtiyacımız var ; kuralın basit olması tercih edilir; ve genellikle bu tür bir kural seçerken hafif bir keyfilik vardır. Herhangi bir kuralın küçük için makul davranması da önemlidir : bir program çok küçük örnek boyutları için kasıtlı olarak çağrılmasa bile, kullanılan prosedür tüm olası boyutlar için anlamlı olmalıdır. verildiğinde , yarım örnek modunun sadece tek örnek değer olduğunu ve verildiğini unutmayın, iki örnek değerinin ortalamasıdır. Bu kural hakkında daha fazla ayrıntı, her zaman küçük bir çoğunluğu tanımlaması ve böylece veriler hakkında demokratik kararların uygulanmasıdır. Bununla birlikte, daha basit bir kural olarak kullanmamanın güçlü bir nedeni yoktur , ancak çok fark , örnek büyüklüğünüzün veya değişkeninizin amaç için uygun olmaması muhtemeldir.
Robertson ve Cryer (1974, s.1014) 35 ürik asit ölçümü (mg / 100 ml cinsinden) bildirmiştir: Stata uygulaması 5,38 modunu rapor eder. Robertson ve Cryer'in oldukça farklı bir prosedür kullanarak kendi tahminleri . Favori yoğunluk tahmin prosedürünüzle karşılaştırın.5,00 , 5,02 , 5,04hsmode
Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers ve JW Tukey. 1972. Sağlam konum tahminleri: anket ve ilerlemeler. Princeton, NJ: Princeton Üniversitesi Yayınları.
Bickel, DR 2002. Sürekli verilerin modu ve çarpıklığının güçlü tahmincileri. Hesaplamalı İstatistik ve Veri Analizi 39: 153-163.
Bickel, DR ve R. Frühwirth. 2006. Modun hızlı ve sağlam bir tahmin edicisinde: diğer tahmin edicilerin uygulamalarla karşılaştırılması. Hesaplamalı İstatistik ve Veri Analizi 50: 3500-3530.
Dalenius, T. 1965. Mod - İhmal edilmiş bir istatistiksel parametre. Journal, Kraliyet İstatistik Topluluğu A 128: 110-117.
Grübel, R. 1988. Kısalığın uzunluğu. Yıllık İstatistikler 16: 619-628.
Hampel, FR 1975. Konum parametrelerinin ötesinde: sağlam kavramlar ve yöntemler. Bülten, Uluslararası İstatistik Enstitüsü 46: 375-382.
Maronna, RA, RD Martin ve VJ Yohai. 2006. Sağlam istatistikler: teori ve yöntemler . Chichester: John Wiley.
Robertson, T. ve JD Cryer. 1974. Modu tahmin etmek için tekrarlanan bir prosedür. Journal, Amerikan İstatistik Derneği 69: 1012-1016.
Rousseeuw, PJ 1984. En küçük kareler regresyon medyanı. Journal, Amerikan İstatistik Derneği 79: 871-880.
Rousseeuw, PJ ve AM Leroy. 1987. Sağlam regresyon ve aykırı değer tespiti . New York: John Wiley.
Bu hesap,
Cox, NJ 2007. HSMODE: hesapla yarı numune modlarına Stata modülü, http://EconPapers.repec.org/RePEc:boc:bocode:s456818 .
Ayrıca David R. Bickel web sitesini bakın burada başka bir yazılımda uygulamaları hakkında bilgi almak için.
Eğer bir "x" vektöründeki dağılımdan örnekleriniz varsa, yapardım:
mymode <- function(x){
d<-density(x)
return(d$x[which(d$y==max(d$y)[1])])
}
Yoğunluk fonksiyonunu ayarlamanız gerekir, böylece üstte yeterince pürüzsüzdür ;-).
Sadece dağıtımın yoğunluğuna sahipseniz, modu bulmak için bir iyileştirici kullanırım (REML, LBFGS, simpleks, vb.) ...
fx <- function(x) {some density equation}
mode <- optim(inits,fx)
Veya dağıtımdan (paket değeri) bazı örnekler almak için bir Monte-Carlo örnekleyici kullanın ve yukarıdaki prosedürü kullanın. (Her neyse, Stan bir dağıtım modu almak için "optimize" işlevi olarak paket).