İstatistik ve makine öğreniminde iki grup arasında ayrım yapılması: hipotez testi vs. sınıflandırma vs. kümeleme

29

A ve B olarak etiketlenmiş iki veri grubum olduğunu varsayalım (her biri 200 örnek ve 1 özellik içeren) ve farklı olup olmadıklarını bilmek istiyorum. Yapabilirdim:

a) istatistiksel olarak farklı olup olmadıklarını görmek için istatistiksel bir test (ör. t-testi) yapın.
b) denetimli makine öğrenmesini kullanın (örn. destek vektör sınıflandırıcısı veya rastgele orman sınıflandırıcısı). Bunu verilerimin bir kısmı üzerinde eğitebilir ve geri kalanını doğrulayabilirim. Makine öğrenme algoritması daha sonra istirahati doğru bir şekilde sınıflandırırsa, numunelerin farklı olduğundan emin olabilirim.
c) denetlenmemiş bir algoritma (örn. K-Means) kullanın ve tüm verileri iki örneğe ayırmasına izin verin. Daha sonra bu iki bulunan numunenin A ve B etiketlerime uygun olup olmadığını kontrol edebilirim.

Benim sorularım:

Bu üç farklı yol birbiriyle nasıl örtüşüyor?
B) ve c) herhangi bir bilimsel tartışma için yararlı mı?
B) ve c) yöntemlerinden A ve B örnekleri arasındaki fark için nasıl bir “önem” alabilirim?
Verilerin 1 özellik yerine birden fazla özelliği olsaydı ne değişecekti?
100 vs 300 gibi farklı sayıda örnek içerirlerse ne olur?

— maxg
kaynak

3

L (a) ve (b) arasındaki fark, istatistiksel testler de olup odaklanmalarıdır olduğu say olan sınıflandırma yöntemleri bu farkın büyüklüğü odak ise, bir fark. Rasgele orman kullandığınızda, çapraz doğrulanmış doğruluğu bilmek istersiniz; belki% 78'dir. İlgilendiğiniz sayı budur ve % 50'ye eşit olmadığına dair bir açıklama yapmazsınız .

— amip diyor Reinstate Monica

4

A / b / c'nin anlamlı olduğu IMHO durumları, tipik sinyal-gürültü oranında farklılık gösterir ve (a) 'dan (b)' ye (c) 'ye yükselir. Bir t-testinin tipik uygulamasında yüksek gürültü vardır; grupların eşit olmadığını göstermek istiyoruz. Eğer gruplar açıkça eşit değilse (daha az gürültü), artık gerçekten bir teste ihtiyacımız yok; bunun yerine grupların ne kadar farklı olduklarını ölçmek istiyoruz ve örnek dışı sınıflandırma doğruluğu burada yardımcı olabilir. Daha az gürültü varsa ve sınıflandırma doğruluğu ~% 100 ise, grupların kümeleme algoritması tarafından algılanabilecek kadar üstün olup olmadığını sorabiliriz .

— amip diyor Reinstate Monica

1

@ amoeba, size hitap ediyorum çünkü soru başlığını vb. düzenliyorsunuzdur. Sizden bir kez daha düşünmenizi isterim. “Sınıflandırma” ve “kümelenme”: makine öğrenmeye (tek başına) sahip değildir . Bu görevler ortaya çıktı ve rutin olarak ilk m'den önce istatistik / veri analizinde yapıldı. öğrenen doğdu. Bu, yalnızca ML nedeniyle ve bunun içinde gelişen SVM gibi birkaç teknik için geçerlidir. Sınıflandırma / kümeleme / ağaçların sadece ML ile ilişkilendirilmesi uygun değildir. Bununla birlikte, ML, yoğun şekilde tren / test kullanması bakımından istatistiksel veri analizinden farklıdır.

— ttnphns

@ Ttnphns Elbette, hepsi doğru, ancak asıl başlık "Örnekleri ayırt etme: Makine Öğrenimi-İstatistiksel testler (örn. t-testi)" idi) ve soruya gerçekten t-testi sorduğu için biraz hassasiyet eklemek istedim. sınıflandırma vs kümeleme (bu özel bilimsel amaç için). Başlığın olası iyileştirmeleri hakkında düşüneceğim.

— amip diyor Reinstate Monica

@ttnphns Başlığı düzenledim, daha fazla beğenip beğenmediğinizi görün.

— amip diyor Reinstate Monica

15

Harika soru Her şey, hedeflerinizin ne olduğuna (ve belki de durumunuzun mahiyetine bağlı olarak) iyi veya kötü, yararlı veya olmayabilir. Çoğunlukla, bu yöntemler farklı hedeflere ulaşmak için tasarlanmıştır.

İstatistiksel testler , testi gibi, bilimsel hipotezleri test etmenizi sağlar. Genellikle başka amaçlar için kullanılırlar (çünkü insanlar sadece diğer araçlara aşina değillerdir), fakat genellikle kullanılmamalıdır. Eğer iki grubun normal dağılmış bir değişken üzerinde farklı araçlara sahip olduğuna dair bir a priori hipoteziniz varsa, o zaman testi, bu hipotezi test etmenize ve uzun süreli tip I hata oranınızı kontrol etmenize izin verecektir (eğer bilmeyeceğinizi bilmeseniz de) Bu durumda bir tip I hata oranı yaptınız). $t$ $t$
Makine öğrenimindeki sınıflandırıcılar , bir SVM gibi, desenleri bilinen bir sınıf kümesine ait olarak sınıflandırmak için tasarlanmıştır. Tipik durum, bilinen bazı örneklere sahip olmanız ve bunları kullanarak sınıflandırıcıyı eğitmek istediğiniz, böylece gerçek sınıfı bilinmeyen başka desenlere sahip olduğunuzda gelecekte en doğru sınıflandırmaları sağlayabilmenizdir. Buradaki vurgu , örneklem doğruluğu dışında; Herhangi bir hipotez test etmiyorsunuz. Tahminli olarak değişkenlerin / özelliklerin dağılımının sınıflar arasında farklılık göstereceğini umarsınız, aksi takdirde gelecekteki bir sınıflandırma yardımı mümkün olmayacaktır, ancak Y'nin X'ine göre farklılaştığına dair inancınızı değerlendirmek istemezsiniz. Doğru tahmin etmek istediğinizde Y bilindiğinde gelecekte X.
Denetimsiz öğrenme algoritmaları, kümeleme gibi , bir veri kümesinde yapıyı algılamak veya uygulamak için tasarlanmıştır. Bunu yapmak isteyebileceğiniz birçok olası neden var. Bazen bir veri kümesinde gerçek, gizli gruplamalar olmasını bekleyebilir ve kümelemenin sonuçlarının amaçlarınız için makul ve kullanışlı görünüp görünmeyeceğini görmek isteyebilirsiniz. Diğer durumlarda, veri azaltmayı etkinleştirmek için veri kümesine bir yapı uygulamak isteyebilirsiniz. Her iki durumda da, herhangi bir şey hakkında bir hipotez test etmeye çalışmıyorsunuz ya da gelecekte herhangi bir şeyi doğru bir şekilde tahmin edebilmeyi umuyorsunuz.

Bunu akılda tutarak, sorularınızı ele alalım:

Üç yöntem temel olarak hizmet ettikleri hedeflerde farklılık gösterir.
b ve c bilimsel argümanlarda faydalı olabilir, söz konusu argümanların niteliğine bağlıdır. Şimdiye kadar bilimdeki en yaygın araştırma türü hipotezleri test etmeye odaklanmıştır. Bununla birlikte, öngörücü modeller oluşturmak veya gizli bildirimleri tespit etmek de meşru hedeflerdir.
Tipik olarak b veya c yöntemlerinden 'önem kazanmaya' çalışamazsınız.
Özelliklerin doğada kategorik olduğunu varsayarsak (benim topladığım şey budur), yine de bir faktörel ANOVA kullanarak hipotezleri test edebilirsiniz. Makine öğreniminde çoklu etiket sınıflaması için bir alt konu vardır . Birden fazla üyelik / çakışan küme için yöntemler de vardır, ancak bunlar daha az yaygındır ve çok daha az izlenebilir bir sorun teşkil eder. Konuya genel bir bakış için bkz. Krumpleman, CS (2010) Örtüşen kümeleme. Tez, UT Austin, Elektrik ve Bilgisayar Mühendisliği ( pdf ).
Genel olarak konuşursak, üç yöntem türünün tümü, kategorilerdeki dava sayısı arttıkça daha büyük zorluklara sahiptir.

— gung - Eski Monica
kaynak

2

Re # 4: Bence OP'deki "özellik" kelimesini yanlış anladığını düşünüyorum. Makine öğreniminde "özellik" sadece bir değişken anlamına gelir. Bu yüzden "çoklu özellikler", birinin t-testinin (Hotelling'in T'si gibi) çok değişkenli bir versiyonunu kullanacağı ve faktoring ANOVA'sını kullanmayacağı anlamına gelir.

— amip diyor Reinstate Monica

11

Kümelenmeyi ele almayacak, çünkü diğer cevaplarda ele alındı, ancak:

Genel olarak, iki örneğin anlamlı şekilde farklı olup olmadığının test edilmesi sorunu iki örneklem testi olarak bilinir .

$t$ $p$

Sınıflandırıcıdan iki örneklemli bir test yaparsanız, örneğin Lopez-Paz ve Oquab (2017) tarafından önerilen şekilde, bu sorunlardan bazılarını düşünmek daha kolay olabilir . Prosedür aşağıdaki gibidir:

$X$ $Y$ $X_\text{train}$ $X_\text{test}$ $Y_\text{train}$ $Y_\text{test}$
$X_\text{train}$ $Y_\text{train}$
$X_\text{test}$ $Y_\text{test}$
$\hat p$ $p = \tfrac12$ $p \ne \tfrac12$ $p \ne \tfrac12$

Öğrenilen sınıflandırıcıyı inceleyerek, dağılımlar arasındaki farkları yarı anlamlı bir şekilde yorumlayabilirsiniz. Düşündüğünüz sınıflandırıcı ailesini değiştirerek, teste belirli türden farklılıklar aramaya yardımcı olabilirsiniz.

Tren testi bölünmesi yapmanın önemli olduğuna dikkat edin: aksi takdirde girdilerini az önce hafızaya alan bir sınıflandırıcı her zaman mükemmel bir ayırt edilebilirliğe sahip olacaktır. Eğitim setindeki puanların arttırılması, iyi bir sınıflandırıcı öğrenmek için size daha fazla veri sağlar, ancak sınıflandırma doğruluğunun tesadüflerden gerçekten farklı olduğundan emin olmak için daha az fırsat sağlar. Bu tradeoff sorun ve sınıflandırıcı aileye göre değişecek ve henüz tam olarak anlaşılamamış bir şey.

Lopez-Paz ve Oquab, bu yaklaşımın birkaç problem üzerinde iyi deneysel performans sergilediklerini gösterdi. Ramdas ve diğ. (2016) ayrıca teorik olarak yakından ilişkili bir yaklaşımın belirli bir basit problem için en uygun olduğunu göstermiştir. Bu ortamda yapılacak "doğru" şey, aktif bir araştırma alanıdır, ancak bu yaklaşım en azından standart dışı bir test uygulamasından biraz daha fazla esneklik ve yorumlanabilirlik istiyorsanız, çoğu ortamda makul düzeydedir.

— Dougal
kaynak

(+1) Ayrıca, iç içe çapraz doğrulama, gitme yoludur, imo. Ardından, dış yeniden örnekleme döngüsünde elde ettiğiniz performans tahminini bilgi içermeyen bir model performansına karşı test edin. Rastgele tesadüfen beklenenden önemli ölçüde daha yüksekse, verileriniz bir şekilde ayırt edilir.

— Firebug

@Firebug "Bilgi içermeyen model performansı" ile neyi kastediyorsunuz? Önerilen prosedürü pek anlamadım.

— Dougal

2

@Febebug Önemli ancak ince bir uyarı, sınıflandırma doğruluğu CV ile tahmin edilirse, o zaman bir binom testi kullanılamaz.

— amip diyor Reinstate Monica

2

@Febebug Amacım hala devam ediyor: AUC'lere farklı katlardan ve özellikle de tekrarlanan CV'den AUC'lere herhangi bir türden bir test uygulayamazsınız çünkü bu tahminler bağımsız değildir. Bu iyi bilinen bir sorundur.

— amip diyor Reinstate Monica

2

Yeniden permütasyon testi: Kendim yaptım. Performans tahmini elde etmek için CV'yi çalıştırın, sonra etiketleri karıştırın ve tüm CV boru hattını tekrar çalıştırın (ve null dağılımını elde etmek için bu karıştırma işlemini 100 veya 1000 kez yapın). Bu olsa da çok fazla zaman alır. Cc ila @Firebug.

— amip diyor Reinstate Monica

3

Sadece (a) yaklaşımı hipotez testi amacına hizmet eder.

Denetimli makine öğrenme algoritmaları (b) kullanılması durumunda, grupların ayrımcılığına ilişkin hipotezi kanıtlayamaz veya ispat edemezler. Makine öğrenme algoritması grupları doğru bir şekilde sınıflandırmazsa, probleminiz için "yanlış" algoritmayı kullandığınızdan veya yeterince ayarlamamış olmanızdan dolayı olabilir. Diğer yandan, "tamamen rastgele" veri uzunluğuna "işkence" edebilirsiniz İyi tahminler yapan bir model ortaya çıkarmak için yeterli. Yine bir başka sorun, algoritmanın "iyi" tahminler yaptığını ne zaman ve nasıl bileceksiniz? Neredeyse hiç bir zaman% 100 sınıflandırma doğruluğunu hedeflemeyeceksiniz, bu yüzden sınıflandırma sonuçlarının bir şey kanıtladığını ne zaman anlarsınız?

Kümeleme algoritmaları (c) denetimli öğrenme için tasarlanmamıştır. Etiketleri yeniden oluşturmayı değil, verilerinizi benzerlik açısından gruplandırmayı amaçlamaktadırlar. Şimdi, sonuçlar hangi algoritmayı kullandığınıza ve ne tür benzerlikler aradığınıza bağlı. Verileriniz farklı benzerliklere sahip olabilir, erkekler ve kızlar arasında farklılıklar aramak isteyebilirsiniz, ancak algoritma bunun yerine fakir ve zengin çocuklar veya zeki ve daha az akıllı, sağ ve solak vb. Grupları bulabilir. Amaçladığınız gruplandırma, gruplamanın anlamlı olmadığını, ancak yalnızca diğer “anlamlı” gruplandırmayı bulduğunu kanıtlamaz. Önceki durumda olduğu gibi, sonuçlar kullanılan algoritmaya ve parametrelere bağlı olabilir. On algoritma / ayardan biri "sizin" bulundusa size uyur mu? etiketler? Ya yüzde bir olsaydı? Durmadan önce ne kadar süre ararsınız? Makine öğrenimini çoğu durumda kullanırken, varsayılan ayarlarla bir algoritmayı kullandıktan sonra durmayacağınızı ve sonucun kullandığınız prosedüre bağlı olabileceğine dikkat edin.

— Tim
kaynak

2

Yaklaşımı (b) için: belirtildiği gibi bir hipotez testi gerçekleştirebilmesi Cevabıma (bu sorun için sınıflandırıcıların bir naif kullanımda mutlaka olsa) sizin Sonucun anlamlı olup olmadığını bilemez sorunu çözmek için. Verilen herhangi bir hipotez testinin, boşluğu reddetmekte başarısız olabileceğine dikkat edin, çünkü bu, probleminiz için "yanlış" bir testtir, aynen bir sınıflandırıcıda olduğu gibi. aşırı donanım sorunu tamamen veri bölüşümü ile çözülür.

— Dougal

@Dougal iyi noktaları (+1), ancak benim temel argümanım, makine öğrenimini kullanarak sonucun, algoritmayı nasıl seçeceğinize, kullandığınıza, test edeceğine ve sonuçları nasıl değerlendirdiğinize bağlı olduğu; bu nedenle bu tür bir testin sonucu büyük ölçüde eylemlerinize bağlıdır. Bu, potansiyel olarak iki farklı istatistikçinin bu yöntemi kullanırken farklı sonuçlar alabileceği anlamına gelir. Diğer taraftan, geleneksel hipotez testleriyle, yalnızca test seçimine bağlıdır.

— Tim

Dahası, bunu uygulamak için tek bir "doğru" yol yoktur ve beklenen sonuçları elde etmek için kolayca manipüle edebilirsiniz (amaçlı ya da değil).

— Tim

İstediğiniz sonucu elde edene kadar sadece bir milyon şey deniyorsanız, evet. Kendi analizinizden de dahil olmak üzere uygun veri bölüşümü yaparsanız, test prosedürü tamamen geçerlidir. Daha fazla seçeneğe sahip olmak, onu nasıl kullanacağınızı bildiğiniz durumlarda daha fazla güç elde etmenizi sağlar, ancak dikkatli değilseniz, evet, hile yapma (yanlışlıkla veya başka türlü) sağlar.

— Dougal

@Dougal evet, ancak sonuç aynı zamanda çapraz doğrulama için kullanılan prosedüre ve kendisinin bölünmesine (örn. Test grubunun büyüklüğü) de bağlıdır. Dolayısıyla her adımda sonuç işleminize bağlıdır. Dahası, öğrenmeyi bırakıp daha iyi sonuçlar elde etmeye çalıştığınızda kararınızdır (varsayılan ayarlarla tek algoritma, tek algoritmalar ve parametreleri ayarlama, birden çok algoritma vs - ne kadar?). Bu prosedür, kullanılan prosedürü hesaba katan çoklu testler için bazı düzeltmelere ihtiyaç duyabilir (ancak tam olarak ne?) - varsayılan ayarlara sahip tek algoritmada iyi sonuçlar görünmektedir

— Tim

2

a) yalnızca dağılımın farklı olup olmadığı sorusunu yanıtlar, ancak onları nasıl ayırt edeceğinizi değil. b) İki dağıtım arasında ayrım yapmak için en iyi değeri bulacaktır. c) eğer iki dağılımın belirli özelliklere sahip olması halinde çalışacaktır. Örneğin, normal dağılımla çalışır, ancak bazı iki modlu dağılımla çalışmaz, çünkü yöntem aynı grubun iki modunu iki farklı grup yerine ayırabilir.
c) İki model dağılımından dolayı bilimsel argümanlar için faydalı değildir. b) iki dağılımı birbirinden ayırmak için kullanılabilir, çünkü önemini hesaplayabilirsiniz (bkz. 3.).
Önyükleme yaparak. Modeli rastgele alt örneklere göre 1000 kere hesaplarsınız. Bir puan alırsınız, örneğin minimum alfa ve beta hata toplamı. Skoru artan olarak sıralarsınız. % 5 güven için 950th değerini seçersiniz. Bu değer% 50'den düşükse (A ve B grubu için eşit puan sayısı için)% 95 güven ile, dağılımların aynı olduğuna dair boş hipotezi göz ardı edebilirsiniz. Sorun, dağılımların her ikisi de normalse, aynı anlama sahip olmaları, ancak farklı bir çeşitlemeleri olması durumunda, ML teknikleriyle farklı olduklarını anlayamayacak olmanızdır. Öte yandan, iki dağıtımı ayırt edebilecek bir varyasyon testi bulabilirsiniz. Ve ML'nin istatistiksel bir testten daha güçlü olacağı ve dağılımları ayırt edebileceği başka bir yol olabilir.
ML'de yalnızca bir özelliğiniz varsa, dağılımları ayırt etmek için yalnızca bir değer bulmanız gerekir. İki özelliği ile sınır bir sinüs olabilir ve çok boyutlu alanda gerçekten garip olabilir. Bu yüzden doğru sınırı bulmak çok daha zor olacak. Öte yandan, ek özellikler ek bilgi getirir. Bu yüzden genellikle iki dağıtımın daha kolay ayırt edilmesine izin verecektir. Her iki değişken de normal olarak dağıtılmışsa, sınır bir çizgidir.
Orta Limit Teoremi uygulanamadığı için daha küçük örnekler normal olmayabilir. Merkezi Limit Teoremi çalışmaya başladığından daha büyük örnek daha normal davranmaya başlar. Örneğin, eğer örnek yeterince büyükse, her iki grubun ortalaması neredeyse normal şekilde dağılacaktır. Ancak, genellikle 100'e karşı 300 değil, 1000 gözleme karşı 10 gözlemdir. Dolayısıyla, bu siteye göre , ortalamaların farkı için t testi, gözlem sayısı 40'tan büyükse ve aykırı değerler olmadan dağılımına bakmaksızın çalışacaktır.

— keiv.fly
kaynak

0

İstatistiksel test verilerden çıkarım yapmak içindir, işlerin nasıl ilişkili olduğunu size söyler. Sonuç, gerçek dünya anlamında bir şeydir. Örneğin, sigara kullanımı hem yön hem de büyüklük bakımından akciğer kanseri ile nasıl ilişkilidir. Size hala olayların neden olduğunu anlatmıyor. İşlerin neden olduğunu cevaplamak için, diğer değişkenlerle olan ilişkiyi de göz önünde bulundurmalı ve uygun düzenlemeleri yapmalıyız (bkz. Pearl, J. (2003).

Denetimli öğrenme , öngörülerde bulunmak içindir, size ne olacağını söyler. Örn, bir kimsenin sigara içme durumu göz önüne alındığında, akciğer kanseri olup olmayacağını tahmin edebiliriz. Basit durumlarda, örneğin “algoritma” ile tanımlanan sigara içme durumunun kesilmesine bakarak size “nasıl” olduğunu söyler. Ancak daha karmaşık modellerin yorumlanması zor veya imkansızdır (birçok özelliği olan derin öğrenme / güçlendirme).

Denetimsiz öğrenme genellikle yukarıdaki ikisini kolaylaştırmakta kullanılır.

İstatistiksel testler için, verinin altında yatan bazı bilinmeyen alt grupları keşfederek (kümeleme), değişkenler arasındaki ilişkilerde heterojenliği ortaya çıkarabiliriz. Örneğin sigara içmek, alt grup A için akciğer kanseri olma olasılığını arttırır, ancak alt grup B'yi arttırmaz.
Denetimli öğrenme için, tahmin doğruluğunu ve sağlamlığını iyileştirmek için yeni özellikler oluşturabiliriz. Örneğin, alt grupların (kümelenme) veya akciğer kanserine sahip olma ihtimali ile ilişkili özelliklerin birleşiminin (boyut küçültme) belirlenmesiyle.

Özelliklerin / değişkenlerin sayısı arttıkça, istatistiksel test ve denetimli öğrenme arasındaki fark daha önemli hale gelir. İstatistiksel test bundan kesinlikle faydalanmayabilir, örneğin, diğer faktörleri kontrol ederek veya yukarıda belirtilen ilişkilerde heterojenliği tanımlayarak nedensel çıkarım yapmak isteyip istemediğinize bağlıdır. Denetimli öğrenme, eğer özelliklerin uygun olması durumunda daha iyi bir performans gösterecek ve bir kara kutu gibi görünecektir.

Örnek sayısı büyüdüğünde, istatistiksel testler için daha kesin sonuçlar, denetimli öğrenme için daha kesin sonuçlar ve denetimsiz öğrenme için daha sağlam sonuçlar elde edebiliriz. Ancak bu, verilerin kalitesine bağlıdır. Kötü kaliteli veriler sonuçlara önyargı veya gürültü getirebilir.

Bazen, müdahalenin nasıl yapıldığını “neden” ve “neden” olarak bilmek istiyoruz, örneğin sigara içmenin akciğer kanserine neden olduğunu belirleyerek, bununla ilgili politika yapılabilir. Bazen karar vermeyi bildirmek için “ne” olduğunu bilmek istiyoruz, örneğin, kimin akciğer kanseri olması muhtemel olduğunu bulmak ve onlara erken tedavileri vermek. Bilimde tahmin ve sınırları hakkında yayınlanan özel bir konu var ( http://science.sciencemag.org/content/355/6324/468). “Terabayt veriyi işlemek için algoritmik kapasiteye sahip insan bağlamı anlayışını birleştiren multidisipliner çabalarla sorular ele alındığında başarı en tutarlı şekilde görünüyor.” Örneğin, hipotez testi kullanılarak keşfedilen bilgiler bizi bilgilendirerek denetimli öğrenmeye yardımcı olabilir. ilk başta hangi veri / özellikleri toplamalıyız. Öte yandan, denetlenen öğrenme, hangi değişkenleri bildirerek hipotezler oluşturulmasına yardımcı olabilir.

— Tom KL
kaynak