Verileri test ve eğitim setlerine ayırmak yalnızca bir “istatistik” midir?


11

Ben makine öğrenimi / veri bilimi okuyan bir fizik öğrencisiyim, bu yüzden bu sorunun herhangi bir çatışmaya başlamasını istemiyorum :) Ancak, herhangi bir fizik lisans programının büyük bir kısmı laboratuvarlar / deneyler yapmaktır, bu da çok fazla veri anlamına gelir. işleme ve istatistiksel analiz. Ancak, fizikçilerin verilerle ilgilenme şekli ile veri bilimi / istatistiksel öğrenme kitaplarımın verilerle ilgilenme biçimi arasında keskin bir fark görüyorum.

Temel fark, fizik deneylerinden elde edilen verilere regresyon gerçekleştirmeye çalışırken, regresyon algoritmalarının WHOLE veri kümesine uygulanması , eğitim ve test setlerine kesinlikle ayrılmamasıdır. Fizik dünyasında, model için tüm veri setine dayalı olarak R ^ 2 veya bir tür sözde R ^ 2 hesaplanır. İstatistik dünyasında, veriler neredeyse her zaman 80-20, 70-30, vb.'ye bölünür ve daha sonra model test veri kümesine göre değerlendirilir.

Ayrıca, bu veri bölünmesini asla yapmayan bazı büyük fizik deneyleri (ATLAS, BICEP2, vb ...) var, bu yüzden fizikçilerin / deneycilerin istatistik yapma şekli ile veri bilimcileri arasında neden böyle bir fark olduğunu merak ediyorum. istatistik yapmak.


1
(+1) çok güzel bir soru (doğru cevaplamak için zamanım yok). Yorum: Fizik "gerçek deneyler" lüksüne sahiptir; genel olarak kontrol edilen / laboratuvar koşulları, çoğunlukla iyi tanımlanmış sonuçlar / değişkenler ve varsayılan tekrarlanabilirlik. Her Zamanki Halk Sağlığı / Ekonometri / Anket İstatistikleri projeleri (birkaç açık alt alandan bahsetmek gerekirse) bunu anlamıyor. Karıştırmak, mevsimsellik (zamana bağımlılık) ve genel olarak kavram sapması İstatistiklerde yaygındır , bu nedenle bu "verilerin bölünmesi" tamamen aptalca sonuçları önlemenin bariz yollarından biridir. Ayrıca, tüm tahminciler eşit derecede verimli oluşturulmaz. :)
usεr11852

3
Stanford'da bir istatistik profesörü olan David Donoho'nun yakın tarihli bir tartışma belgesinde zengin bir tartışma ve arka plan bulacaksınız: courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf Özellikle "Öngörücü Kültür" "geleneksel istatistiklerin aksine.
Gordon Smyth

1
Bence bu, "istatistiklerin" küçük bir alt kümesi ve makine öğreniminin büyük bir alt kümesi olan "teorinin yokluğunda bir tahmin" olayıdır.
Laconic

istatistikçiler de verilerini
bölmüyorlar

@rep_ho örnek tahminin önemli olmadığı durumlarla ilgilenen bazı - belki de çok - istatistikçiler bunu yapar (ve bazıları uzun süredir yapmışlardır). çapraz geçerlilik ve bir defada bırakılan istatistikler (örneğin) gibi fikirler uzun zamandır varlığını sürdürüyor. İstatistikçiler, kaçınılmaz olmadıkça, sadece bir kez bölünme eğilimindedir. Hangi istatistikçilerle konuştuğunuza bağlı olabilir
Glen_b -Restate Monica

Yanıtlar:


6

Tüm istatistiksel prosedürler "çapraz doğrulama" olarak da adlandırılan eğitim / test verilerine bölünmez (tüm prosedür bundan biraz daha fazlasını içermesine rağmen).

Daha ziyade, bu özellikle örnek dışı hatayı tahmin etmek için kullanılan bir tekniktir ; yani modeliniz yeni bir veri kümesi kullanarak yeni sonuçları ne kadar iyi tahmin edecek? Örneğin, veri kümenizdeki örnek sayısına göre çok fazla sayıda öngörücüye sahip olduğunuzda bu çok önemli bir sorun haline gelir. Bu gibi durumlarda, büyük numune içi hatası olan ancak örnek hatası dışında korkunç bir model oluşturmak gerçekten kolaydır ("aşırı montaj" olarak adlandırılır). Hem çok sayıda öngörücüye hem de çok sayıda örneğe sahip olduğunuz durumlarda, çapraz doğrulama, yeni verileri tahmin ederken modelin ne kadar iyi davranacağını değerlendirmek için gerekli bir araçtır. Rakip öngörücü modeller arasında seçim yaparken de önemli bir araçtır.

Başka bir notta, çapraz doğrulama neredeyse her zaman sadece öngörülü bir model oluşturmaya çalışırken kullanılır . Genel olarak, bazı tedavilerin etkisini tahmin etmeye çalıştığınızda modeller için çok yararlı değildir. Örneğin, gerilme mukavemetinin A ve B malzemeleri arasındaki dağılımını karşılaştırıyorsanız ("muamele" malzeme tipidir), çapraz doğrulama gerekli olmayacaktır; tedavi etkisi tahminimizin örneklemden genelleştirilmesini umuyoruz, ancak çoğu problem için klasik istatistiksel teori buna (yani tahminlerin "standart hataları") çapraz validasyondan daha kesin olarak cevap verebilir . Ne yazık ki, klasik istatistiksel metodoloji 1standart hatalar için, aşırı sığdırma durumunda dayanmaz. Bu durumda çapraz geçerlilik genellikle daha iyi olur.

Öte yandan, bir materyalin 100.000 gözlem temelinde bazı makine öğrenme modeline attığınız 10.000 ölçülü değişkene dayanarak ne zaman kırılacağını tahmin etmeye çalışıyorsanız, çapraz doğrulama olmadan harika bir model oluşturmakta çok fazla sorun yaşayacaksınız!

Pek çok fizik denemesinde tahmin ediyorum, genellikle etkilerin tahmin edilmesiyle ilgileniyorsunuz. Bu durumlarda, çapraz doğrulamaya çok az ihtiyaç vardır.

1 Bilgilendirici önceliklere sahip Bayes yöntemlerinin aşırı uydurmayı ele alan klasik bir istatistiksel metodoloji olduğu iddia edilebilir. Ama bu başka bir tartışma.

Yan not: çapraz doğrulama ilk olarak istatistik literatüründe ortaya çıkmış ve kesinlikle istatistikçi diyen insanlar tarafından kullanılsa da, makine öğrenimi topluluğunda temel bir gerekli araç haline gelmiştir. Birçok istatistik modeli, çapraz doğrulama kullanılmadan iyi çalışır, ancak "makine öğrenmesi öngörücü modeller" olarak kabul edilen hemen hemen tüm modeller, çapraz onaylamaya ihtiyaç duyduklarından , çoğu zaman çaprazlama yapmadan neredeyse imkansız olan ayar parametrelerinin seçilmesini gerektirirler. -validation.


Tahmin / çıkarım ayrımıyla ilgili son düzenlemenizin biraz kapalı ve yanlış yorumlamaya eğilimli olduğunu düşünüyorum (ki şu anda yapabilirim). Eğer bir şey varsa, bu A malzemesinin B'den daha güçlü olduğunu çıkarırsak, bunun da numune dışında kalmasını isteriz. Ayrıca, böyle bir fikir bootstrap / permütasyon yaklaşımlarını göz ardı edecektir. Ve örnek biraz kapalı; Bir gerçekten tren test-bölünmüş yaklaşımla ziyade regularization gelen kaydedilmez. np
usεr11852

@ usεr11852: evet, ancak çapraz doğrulama olmadan makul düzenleme cezaları seçmek neredeyse imkansız (cezaları Bayes önceliği olarak düşünmekten başka, ancak kara kutu modelleri için zor!). Ve sonuçlarımızı A'dan B'ye örneklemede tutmak için karşılaştırmamızı isterken, bu tipik olarak model ayarlaması gerektiren (tahmin genellikle olduğu gibi) bir sorun değildir ve nispeten düşük sayıda parametre ile klasik istatistiksel teori bunu halledebilir çapraz doğrulama kullanmadan.
Cliff AB

Bu dairesel bir argüman, düzenlileştirme çapraz validasyonu kullanıyor ancak çapraz validasyon düzenli hale getirme için yapılıyor. Bu yüzden başlamak için biraz yorum yaptım. Bence istatistiksel çıkarım / nedensellik bu model olmayan ayarlama yaklaşımından uzaklaşıyor (örneğin bkz. 2016 Johansson vd. "Karşı-olgusal çıkarım için öğrenme gösterimleri" - bu kadar dağınık güzel bir kağıt). Son olarak Temel Fizik araştırmaları sunulduğunda, zor problemler ML (örn. Higgs Boson Makine Öğrenimi Mücadelesi ) yaklaşımlarına da dayanabilir .
usεr11852

@ usεr11852 Düzenleme çapraz doğrulamayı "kullanmaz", bunun yerine düzenlileştirme için ayar parametreniz çapraz doğrulama kullanılarak seçilir. Örneğin, bakınız glments' cv.glmnetgüzel kompakt fonksiyonunda bütün prosedürün.
Cliff AB

1
Ayrıca, fizik araştırmalarının ML yaklaşımlarını veya çapraz doğrulamayı kullanamayacağı iddiasında bulunmadım! Sadece çapraz validasyonun tipik olarak özellikle öngörülü modellerde karmaşık modeller / ayar parametreleri arasında seçim yapmak için kullanıldığını ve birçok klasik fizik deneyinde çapraz validasyonun gerekli olmadığını açıklıyordum. Dolayısıyla fizikçilerin bu verilerle yaptıkları, istatistikçilerin bu verilerle ne yapmaları gerektiği ile çelişmez, ki bu OP'nin sorusunun özü olduğuna inanıyorum.
Cliff AB

3

(Analitik) kimyacı olarak , her iki yaklaşımla da karşılaşıyorum: liyakat figürlerinin analitik olarak hesaplanması (çoğunlukla tek değişkenli regresyon için) ve ayrıca liyakat tahmin rakamlarının doğrudan ölçümü.
Bana verilen tren / test, tahmin kalitesini ölçmek için bir doğrulama deneyinin "küçük kardeşi" dir.


Uzun cevap:

Örneğin lisans fizikokimyasında yaptığımız tipik deneyler tek değişkenli regresyon kullanır. İlgilenilen özellik genellikle model parametreleridir, örneğin reaksiyon kinetiklerini ölçerken zaman sabiti, ancak bazen de tahminlerdir (örneğin, ilgilenilen bazı değerleri tahmin etmek / ölçmek için tek değişkenli doğrusal kalibrasyon).
Bu durumlar aşırı uymama açısından çok iyi huyludur: tüm parametreler tahmin edildikten sonra genellikle rahat bir serbestlik derecesi kalır ve klasik güven veya tahmin aralığı hesaplaması ve klasik hata ile öğrencileri eğitmek için kullanılırlar. yayılma - bu durumlar için geliştirildi. Ve durum tamamen ders kitabı benzeri olmasa bile (örneğin verilerimde bir yapıya sahibim, örneğin kinetiklerde, verilerin reaksiyonun çalışmaları arasındaki fark + bir çalışmadaki ölçümler arasındaki fark ile daha iyi tanımlanmasını beklerdim. basit tek varyanslı yaklaşım), genellikle yararlı sonuçlar elde etmek için denemede yeterli sayıda çalışmam olabilir.

(Dağılımı özellikleri 1000'ler tipik 100'ler Ancak, benim meslek hayatımda, spektroskopik veri setleri ile anlaşma bağımsız olguda (örnekleri) oldukça sınırlı setleri ile üstelik) ve . Genellikle , bu yüzden kaç serbestlik derecesini kullandığımızı söylemek her zaman kolay olmayan bir düzenlileştirme kullanıyoruz ve buna ek olarak, küçük neredeyse tekrarlanan ölçümlerin (büyük) sayılarını kullanarak en azından biraz telafi etmeye çalışıyoruz. - hangi bilinmeyen etkili olan yapraklar bize . veya bilmedenn n < p n n n d fpnn<pnnndf, klasik yaklaşımlar işe yaramıyor. Ama çoğunlukla tahminlerde bulunduğumdan, her zaman modelimin tahmin yeteneğini ölçmek için çok doğrudan bir imkanım var: Tahminler yapıyorum ve bunları referans değerlerle karşılaştırıyorum.

Bu yaklaşım, eğitim / kalibrasyon verilerinde yer almayan koşullar için de öngörücü kaliteyi araştırmamı sağladığı için aslında çok güçlüdür (artan deneysel çaba nedeniyle maliyetli olsa da). Örneğin, tahmin niteliğindeki kalitenin ekstrapolasyonla nasıl kötüleştiğini ölçebilirim (ekstrapolasyon, örneğin eğitim verilerinin alınmasından bir ay sonra yapılan ölçümleri de içerir), önemli olmasını beklediğim karıştırıcı faktörlere karşı sağlamlığı araştırabilirim. , diğer herhangi bir sistemin davranışını incelerken modelimizin davranışını inceleyebiliriz: belirli noktaları araştırırız veya bozarız ve sistemin cevabındaki değişime bakarız.

Öngörücü kalitenin ne kadar önemli olduğunu (ve aşırı uyum riski ne kadar yüksekse) analitik olarak türetilmiş sayılardan ziyade doğrudan kestirim kalitesi ölçümlerini tercih etme eğilimimiz olduğunu söyleyebilirim. (Elbette tüm bu karışıklıkları eğitim deneyinin tasarımına da dahil edebilirdik). Tıbbi teşhis gibi bazı alanlar, model gerçek hastalarda "gevşemeden" önce uygun validasyon çalışmalarının yapılmasını talep eder.

Tren / test bölünmesi (tutma * veya çapraz doğrulama veya önyükleme dışı veya ...) bu tek adımı kolaylaştırır. Ekstra deneyi saklıyoruz ve tahmin etmiyoruz (sadece eğitim verilerinin aynı dağılımının bilinmeyen bağımsız vakalarını öngörmeyi genelleştiriyoruz). Bunu validasyondan ziyade doğrulama olarak tarif ederdim (validasyon buradaki terminolojide derinlemesine olmasına rağmen). Bu, liyakat figürlerinin kesinliği konusunda çok yüksek talepler yoksa, genellikle bir kavram kanıtı senaryosunda çok kesin olarak bilinmeleri gerekmeyecekse, pragmatik bir yöntemdir.

* Tek bir rastgele bölünmeyi trene karıştırmayın ve tahmin kalitesini ölçmek için uygun şekilde tasarlanmış bir çalışma ile test etmeyin.


2
Doğrulama ve doğrulamadaki farkı belirtmek için +1.
tahminci
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.