Popülasyonlar arasındaki farklılıkları inceleme


9

Diyelim ki iki popülasyondan bir örnek aldık: Ave B. Bu popülasyonların bireylerden oluştuğunu varsayalım ve bireyleri özellikler açısından tanımlamayı seçiyoruz. Bu özelliklerin bazıları kategoriktir (örn. İşe giderler mi?) Ve bazıları sayısaldır (örn. Boyları). Şu özellikleri çağıralım: . Bu özelliklerden yüzlerce (örneğin n = 200) toplarız, basitlik olduğunu varsayalım, tüm bireylerde hata veya gürültü olmadan.X1...Xn

İki popülasyonun farklı olduğunu varsayıyoruz. Amacımız aşağıdaki iki soruyu cevaplamaktır:

  1. Aslında önemli ölçüde farklı mı?
  2. Aralarında önemli ölçüde farklı olan nedir?

Karar ağaçları (örneğin rastgele ormanlar) ve doğrusal regresyon analizi gibi yöntemler yardımcı olabilir. Örneğin, bu grupları neyin ayırt edebileceğini anlamak ve özellikler ile popülasyonlar arasındaki ilişkileri incelemek için rastgele ormanlarda özellik önemine veya doğrusal regresyondaki uygun katsayılara bakılabilir.

Bu rotaya geçmeden önce, burada seçeneklerim hakkında iyi bir fikir edinmek istiyorum. Lütfen amacımın kendi başına bir tahmin olmadığını, ancak gruplar arasında önemli farklılıkları test edip bulduğunu unutmayın.

Bu sorunu ele almak için bazı ilkeli yaklaşımlar nelerdir ?

İşte bazı endişelerim var:

  • Doğrusal regresyon analizi gibi yöntemler tam olarak cevap vermeyebilir (2), değil mi? Örneğin, tek bir uyum, bazı farklılıkları bulmanıza yardımcı olabilir, ancak tüm önemli farklılıkları değil . Örneğin, çoklu eşzamanlılık, tüm özelliklerin gruplar arasında nasıl değiştiğini (en azından tek bir uyumda) bulmamızı engelleyebilir. Aynı nedenden ötürü, ANOVA'nın (2) 'ye de tam bir cevap veremeyeceğini umuyorum.

  • Öngörülü bir yaklaşımın nasıl cevap vereceği tam olarak açık değildir (1). Örneğin, hangi sınıflandırma / tahmin kaybı işlevini en aza indirmeliyiz? Uygun olduğumuzda grupların önemli ölçüde farklı olup olmadığını nasıl test edebiliriz? Son olarak, (1) için aldığım cevabın kullandığım belirli sınıflandırma modelleri setine bağlı olabileceğinden endişe ediyorum.

Yanıtlar:


5

Sorunu aşağıdaki gibi düşünelim.

Diyelim ki ve popülasyon için geçerli bir ikili değişken: ilk popülasyon, ikinci popülasyon anlamına geliyor. Sıfır hipotezi birkaç eşdeğer şekilde ifade edilebilir:X=(X1,X2,..Xn)YY=0Y=1

  • 'H0 : popülasyonlar aynı
  • 'H0 : dağılımı verilen dağılımı ile aynı olan verilenXY=0XY=1
  • 'H0 : ve bağımsızXY
  • 'H0 : Herhangi bir fonksiyon için içine , ve bağımsız olarakf{0,1}f(X)Y

Rastgele ormanlar hakkında fazla bir şey bilmiyorum, ancak bunlar aşırı uyumu önleyen çok amaçlı bir öngörücü olarak düşünülebilir. Onları biraz idealize edersek: bu, ile her türlü özelliği arasındaki herhangi bir ilişkiyi aşırı uydurmadan tespit edebilen bir şeydir .YX

Buna dayanarak bir şey denemek mümkündür. Orijinal veri kümesini bir eğitim setine ve bir test setine ayırın. Sonra:

  • rastgele orman yetiştirmek tahmin den eğitim setinde.fYX
  • test setinde ve arasında basit bir ki-kare bağımsızlık testi yapın (risk )αf(X)Y

Bu test oldukça tutucu. Rastgele orman kötü bir , en kötü şekilde aptal bir çıktısı , zaten daha düşük bir olasılıkla reddeder ( doğru olduğunda ). Bir test ve bir eğitim seti kullandığımız için fazla uydurma bir sorun bile olmaz. Bununla birlikte, testin gücü doğrudan rastgele orman yönteminin (veya kullanılan herhangi bir öngörücünün) zekasına bağlıdır.f(X)'H0α'H0

Birkaç olası öngörücüyü kullanabileceğinizi unutmayın: önce düz eski lojistik regresyon, daha sonra bazı çapraz özelliklere sahip lojistik regresyon, sonra birkaç karar ağacı, sonra rastgele bir orman ... Ancak bunu yaparsanız , sayıya ayarlamanız gerekir. yanlış keşiflerden kaçınmak için yapılan testler. Bakınız: Çoklu testler için alfa ayarıα


Teşekkürler Benoit (+1). Bu soru (1) için geçerli görünmektedir. Bu ya da alternatif bir yaklaşımla nasıl başa çıkılacağına dair bir fikrin var mı?
Amelio Vazquez-Reina

DJohnson'un işaret ettiği gibi RF yorumlanabilir değildir. Lojistik regresyon (en azından tek özellikli) olabilir. Gerçekten yordayıcıya bağlıdır. RF'ye yakın bir fikirden sonra, çok sayıda (rastgele) karar ağacı kullanmak (iyi ayarlanmış ) ve ağacı en küçük (= en iyi) p-değeriyle görüntülemek mümkündür. α
Benoit Sanchez

Teşekkürler. Rastgele DT'lerin takılması ve ki-kare benzeri bir testte en önemli sonuca sahip olanları bulmayı öneriyorum. İyi ayarlanmış bir yöntemle bahsettiğinizde Bonferroni düzeltmelerine atıfta bulunduğunuzu varsayıyorum.α. Bu, RF'leri kullanmaktan ve her ağacı test etmekten nasıl farklı olabilir?
Amelio Vazquez-Reina

Ayrıca, RF'lerle ilgili umudum, farklılıkları yakalayan özellikleri tanımlamaktır (yani (2) 'ye en azından kısmi bir cevap almak). Yorumlanabilirlik için ideal değildirler (yüksekliğini sınırlandırarak bunu yapabileceğimi varsayıyorum). Her iki durumda da DT'ler için aynı şey söylenebilir mi? Sadece yorumunuzu iyi anladığımdan emin olun.
Amelio Vazquez-Reina

Evet Bonferroni'ye atıfta bulunuyorum. RF ile birçok DT'nin ortalamasını alarak tek bir öngörücü oluşturursunuz. Ardından, DT'lerin her biri değil, bu ortalama ile tek bir test yaparsınız.αrisk. Yaptığınız birkaç DT ilen sonuçlanan testler 1-(1-α)nriski (Bonferroni kullanmadığınız sürece). Birçok DT'nin ortalamasını alan (tek) bir RF tek bir testken, bu bir çoklu test olarak düşünülmelidir.
Benoit Sanchez

3

Veride kaç özellik bulunduğunu söylemezsiniz. Az, çok, muazzam? Bunların hepsi aynı araçlar, yöntemler ve yöntemler kullanılarak ölçülen popülasyonlar arasında aynı özellikler olduğunu varsayabilir miyiz? Değilse, değişkenlerdeki hataların ölçüm modelinin çalışabileceği daha büyük bir sorununuz vardır .

@benoitsanchez 1 numaralı soruyu cevaplamış gibi görünüyor).

Wrt # 2), RF'lerin yardımcı olabileceğinden emin değilim. Bir kerede bir özelliğe uygulanan tek yönlü ANOVA gibi daha resmi bir model kullanılarak, özellikler için popülasyonlar arasındaki farkın bir testi geliştirilebilir. Bu testlerin sonuçlarını, testin büyüklüğüne ve önemine bağlı olarak özetleyerek, popülasyonların özellikler arasında nasıl farklılaştığının açıklayıcı bir profili mümkün hale gelir. Bu, zevkinize, tercihlerinize ve eğitiminize yeterince titiz olmayabilecek, kuşkusuz geçici ve sezgisel bir çözümdür.

Lateks tipi gösterimlerinde iyi olmamak, bu testlerin nasıl çalışabileceğini basitçe açıklayayım: ilk olarak, tüm özellikleri bir seferde bir özellikten geçiren bir tür makro döngü oluşturun. Döngünün her geçişinde, yeni özellik, popülasyon için bir kukla değişkenin yanı sıra uygun olan kontrol değişkenlerinden oluşan X ile hedef veya DV olur . Her özellik için aynı kontrollerin kullanıldığından ve temel verilerin tüm ANOVA'lar için tamamen aynı olduğundan emin olun ve sonlu veri örneklerinin yakınlıklarına atfedilebilen varyasyonu ortadan kaldırın. Her özellik için yapay değişken için F testi değerlerini toplayın. Bu, özellikler arasında karşılaştırma yapılmasını sağlayan standartlaştırılmış bir metrik sağlayacaktır. F-testleri donatılmış tercih edilir betalar yana betalarstandartlaştırılmamış, her bir özelliğin birim ve standart geliştirmelerinde ifade edilmiştir.

Son yorumunuz, "(1) yanıtımın kullandığım belirli sınıflandırma / regresyon modellerine bağlı olabileceğinden endişe ediyorum" her zaman doğrudur. Cevapların, kullanılan model (ler) in bir fonksiyonu olarak değişmesi muhtemeldir. Aynı zamanda, uygulanan istatistiksel modellemenin deterministik olmayan doğası konusunda rahat olmayan veya kabul etmekte zorlanan daha güçlü teorik ve klasik olarak eğitilmiş istatistikçiler arasında yaygın olarak gözlemlenen bir rahatsızlığın ifadesidir. Bu belirtiler için mükemmel bir panzehir Efron ve Hastie'nin son zamanlarda Bilgisayar Çağı İstatistiksel Çıkarım adlı kitabıdır . Herkesin yinelemesini yineleyen, yaklaşan, sezgisel doğasını samimi bir şekilde kabul ederek, veri bilimi ve makine öğrenimi çağının 21. c'sine istatistiksel modelleme getiriyorlar.hata terimine sahip modeller. Bu gözlemin doğasında var olan gerçeği tanımak için Bayesili olmak gerekmez. Onlarınki, örneğin bir çapraz ürünler matrisi tersine çevrilmediğinde ve / veya bazı bilgiçlik modeli varsayımları karşılanmadığında ellerini uzatan klasik, 20. c istatistik uygulamasının katı determinizminden farklı bir canlandırıcı perspektiftir.


Teşekkürler @ DJjonson. "Her özellik için yapay değişken için F testi değerlerini topla" dediğinizde yo tam olarak ne anlama geliyor? yani bu sonuçla tam olarak ne yapardınız? Ayrıca, bu bağlamda betalarla ne demek istiyorsun? Son olarak, bu yinelemeli yaklaşım etkileşimlerle sınırlı kalmaz mı? Örneğin, orijinal örneği kullanarak, "işe giden kişilerin yüksekliği" arasında önemli bir fark varsa ne olur?
Amelio Vazquez-Reina

Ayrıca, neden çok yönlü ANOVA yapmak yerine bir dizi 1 yollu ANOVA testi ile devam edesiniz?
Amelio Vazquez-Reina

2
Güzel sorular. Ortaya çıkan tanımlayıcı profil açısından, her bir özellik için F testini ve ilişkili önemi veya p değerlerini kaydetmeyi ve sonra bunları yüksekten alçağa sıralamayı düşünüyordum. F testi ki-kare oranı olduğundan ve bu nedenle simetrik olmadığından, sonuçların yönlülüğünü anlamada rapora nüfus araçları eklenebilir. Alternatif olarak, bir t-testi bu anlayışa yardımcı olabilir. Bu profil, altta yatan popülasyonların bir fonksiyonu olarak özelliklerin hem büyüklüğünü hem de gücünü anlamaya yardımcı olacaktır.
Mike Hunter

Belirtildiği gibi, kontrol değişkenleri uygun şekilde eklenmelidir. Bunlar, tüm modellerde sürekli olarak kullanıldığı sürece etkileşimleri içerebilir. Ek faktörlerin getirilmesi, tanım gereği, modeli tek yönlü çoklu regresyon veya ANOVA'ya genişletecektir.
Mike Hunter
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.