Makine öğrenimi, CART teknikleri ve benzerleri için oldukça yeniyim ve umarım saflığım çok açık değildir.
Rastgele Orman çok düzeyli / hiyerarşik veri yapılarını nasıl işler (örneğin, çapraz düzey etkileşimi söz konusu olduğunda)?
Yani, çeşitli hiyerarşik düzeylerde analiz birimleri içeren veri kümeleri ( ör. Okullar içinde yuvalanmış öğrenciler, hem öğrenciler hem de okullar hakkında veriler).
Örnek olarak, birinci düzeydeki bireylerle ( ör . Oylama davranışı, demografi vb. Verilerle) ikinci düzeydeki ülkelerde (ülke düzeyinde verilerle; ör . Nüfus) iç içe yerleştirilmiş çok düzeyli bir veri kümesini düşünün :
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Diyelim ki voted
yanıt / bağımlı değişken, diğerleri ise yordayıcı / bağımsız değişkenler. Durumlarda, kenar boşlukları ve bazı üst düzey değişkeni (bir değişkenin (kısmi bağımlılık) marjinal etkilerinin Bu tip mesela , population
farklı bireysel düzey değişkenleri, vs.), çok ilginç olabilir. Buna benzer bir durumda glm
, elbette daha uygundur - ancak birçok değişken olduğunda, etkileşimler ve / veya eksik değerler ve / veya çok büyük ölçekli veri kümeleri vb glm
.
Subquestions: Random Forest bu tür veri yapısını bir şekilde açıkça ele alabilir mi? Ne olursa olsun, ne tür bir önyargı ortaya çıkarır? Rastgele Orman uygun değilse, başka bir topluluk tipi yöntemi var mı?
(Soru Gruplandırılmış verilerdeki rastgele orman belki de benzerdir, ancak buna gerçekten cevap vermez.)