Diyelim ki iki popülasyondan bir örnek aldık: A
ve B
. Bu popülasyonların bireylerden oluştuğunu varsayalım ve bireyleri özellikler açısından tanımlamayı seçiyoruz. Bu özelliklerin bazıları kategoriktir (örn. İşe giderler mi?) Ve bazıları sayısaldır (örn. Boyları). Şu özellikleri çağıralım: . Bu özelliklerden yüzlerce (örneğin n = 200) toplarız, basitlik olduğunu varsayalım, tüm bireylerde hata veya gürültü olmadan.
İki popülasyonun farklı olduğunu varsayıyoruz. Amacımız aşağıdaki iki soruyu cevaplamaktır:
- Aslında önemli ölçüde farklı mı?
- Aralarında önemli ölçüde farklı olan nedir?
Karar ağaçları (örneğin rastgele ormanlar) ve doğrusal regresyon analizi gibi yöntemler yardımcı olabilir. Örneğin, bu grupları neyin ayırt edebileceğini anlamak ve özellikler ile popülasyonlar arasındaki ilişkileri incelemek için rastgele ormanlarda özellik önemine veya doğrusal regresyondaki uygun katsayılara bakılabilir.
Bu rotaya geçmeden önce, burada seçeneklerim hakkında iyi bir fikir edinmek istiyorum. Lütfen amacımın kendi başına bir tahmin olmadığını, ancak gruplar arasında önemli farklılıkları test edip bulduğunu unutmayın.
Bu sorunu ele almak için bazı ilkeli yaklaşımlar nelerdir ?
İşte bazı endişelerim var:
Doğrusal regresyon analizi gibi yöntemler tam olarak cevap vermeyebilir (2), değil mi? Örneğin, tek bir uyum, bazı farklılıkları bulmanıza yardımcı olabilir, ancak tüm önemli farklılıkları değil . Örneğin, çoklu eşzamanlılık, tüm özelliklerin gruplar arasında nasıl değiştiğini (en azından tek bir uyumda) bulmamızı engelleyebilir. Aynı nedenden ötürü, ANOVA'nın (2) 'ye de tam bir cevap veremeyeceğini umuyorum.
Öngörülü bir yaklaşımın nasıl cevap vereceği tam olarak açık değildir (1). Örneğin, hangi sınıflandırma / tahmin kaybı işlevini en aza indirmeliyiz? Uygun olduğumuzda grupların önemli ölçüde farklı olup olmadığını nasıl test edebiliriz? Son olarak, (1) için aldığım cevabın kullandığım belirli sınıflandırma modelleri setine bağlı olabileceğinden endişe ediyorum.