Science dergisi, Forking Pathes Analizleri Bahçesini onayladı mı?


29

Uyarlanabilir veri analizi fikri, daha fazla bilgi edindikçe verileri analiz etme planınızı değiştirdiğinizdir. Açıklayıcı veri analizi (EDA) söz konusu olduğunda, bu genellikle iyi bir fikirdir (genellikle verilerde öngörülemeyen kalıplar ararsınız), ancak doğrulayıcı bir çalışma için bu, çok hatalı bir analiz yöntemi olarak kabul edilir (hepsi hariç) adımlar açıkça tanımlanmış ve önceden planlanmış şekilde planlanmıştır).

Bu varlık adaptif veri analizi, söz konusu olan birçok araştırmacı aslında çok istatistikçilerden dehşet, onların analizlerini yürütmek nasıl tipik. Dolayısıyla, eğer bunu istatistiksel olarak geçerli bir şekilde yapabilirse, istatistiksel uygulamada devrim yaratacaktır.

Aşağıdaki Bilim makalesinde, bunu yapmak için bir yöntem bulduğunu iddia ediyor (ödeme duvarı için özür dilerim, ancak üniversitedeyseniz, muhtemelen erişiminiz var): Dwork et al, 2015, Yeniden kullanılabilir görüşme: Uyarlanabilir veri analizinde geçerliliği korumak .

Şahsen ben her zaman yayınlanan istatistikler makalelerin şüpheci oldum Fen ve bu bir farkı yoktur. Aslında, ek materyal dahil olmak üzere makaleyi iki kez okuduktan sonra, yazarların kendi yöntemlerinin aşırı uyumu önlediğini iddia ettiğini (hiç de) anlamıyorum.

Benim anlayışım, tekrar kullanacakları bir kesin veri kümesine sahip olmalarıdır. Uzatma veri setindeki doğrulayıcı analizin çıktısını "fuzzing" olarak iddia ediyor gibiler, aşırı uydurma önlenecek ( eğitim verilerinde hesaplanan istatistik yeterince uzaksa fuzzing'in sadece gürültü katıyor gibi göründüğünü belirtmekte fayda var) holdout verilerindeki hesaplanan istatistikten ). Söyleyebileceğim kadarıyla, fazla uydurmayı engellemek için gerçek bir sebep yok.

Yazarların ne önerdiği konusunda yanıldım mı? Gözden kaçtığım ince bir etkisi var mı? Yoksa Science , bugüne kadarki en kötü istatistiksel uygulamayı onayladı mı?


2
Bilim erişimi olmayanlar, ödemeli kağıtlara nasıl erişebilecekleri hakkındaki bu son Bilim haberine bakmak isteyebilirler.
amip diyor Reinstate Monica

1
Bu bir ön baskı olabilir mi : arxiv.org/pdf/1411.2664.pdf ?
Tim

1
@Tim: Science makalesi, yayınladığınız ön baskısını gösterir. Ayrıca, Laplacian Noise Adisyon bölümü, yayınlanan makaledeki yöntemlerle çok benzer, ancak aynı görünmüyor.
Cliff AB

1
Muhtemelen diferansiyel gizlilik kullanılan @CliffAB yüzden onları farklı hale getirmek için;)
Tim

4
Bu konu aslında geçen ay ICML'de bir ders. "Sıkı Veri Araştırması: Uyarlanabilir Veri Analizi için Teori ve Araçlar" icml.cc/2016/?page_id=97
horaceT

Yanıtlar:


7

Yazarın bunu yüksek düzeyde açıklayan bir blog yazısı var .

Bu ilanın başından itibaren alıntı yapmak için:

Değişken sayısını azaltmak ve görevimizi basitleştirmek için, önce bazı değişkenler seçiyoruz, örneğin, yanıt değişkeniyle (sistolik kan basıncı) pozitif bir korelasyona sahip olan bazı değişkenler seçiyoruz. Daha sonra seçilen değişkenlere doğrusal bir regresyon modelini yerleştiririz. Modelimizin uygunluğunu ölçmek için, favori istatistik ders kitabımızdan standart bir F testi yaptık ve ortaya çıkan p değerini bildirdik.

Freedman, bildirilen p değerinin oldukça yanıltıcı olduğunu gösterdi - veriler cevap değişkeni ile veri noktaları arasında hiçbir korelasyon olmadan tamamen rastgele olsa bile, büyük olasılıkla önemli bir p değeri gözlemlemeliydik! Önyargı, verilere göre uyarlamalı olarak değişkenlerin bir alt kümesini seçmemizden kaynaklanır, ancak bunu asla hesaba katmayız. Seçtiğimiz çok sayıda olası değişken altkümesi var. Verileri göz atarak diğerinden birini seçtiğimiz gerçeği, F testinin altında yatan varsayımları geçersiz kılan bir seçim yanlılığı yaratıyor.

Freedman'ın paradoksunun önemli bir dersi var. Standart prosedürlerin önem dereceleri, birinin gerçekleştirmeyi veya ihmal etmeyi seçebilecek çok sayıda analizi yakalamaz. Bu sebeple, uyarlanabilirlik, araştırma bulgularının neden “yanlış yolların bahçesi” olarak uyarlanabileceğini uygun bir şekilde belirten Gelman ve Loken tarafından iddia edildiği gibi yanıldığının temel açıklamalarından biridir.

Tekniğinin bu sorunu nasıl çözdüğünü anlayamıyorum. Bu yüzden sorunuza cevaben Forking Yolu Bahçesine hitap etmediklerine inanıyorum ve bu anlamda onların tekniği insanları yanlış bir güvenlik hissi uyandıracak. "Çapraz doğrulama kullandım" demekten pek farklı olmayan bir şey - iç içe geçmiş CV kullananlar - yanlış bir güvenlik hissi uyandırıyor.

Bana göre blog gönderilerinin büyük bir kısmı tekniklerine işaret ediyor, Kaggle tarzı bir yarışmada katılımcıların test setinin gradyanına tırmanmasını engellemeye daha iyi bir cevap gibi görünüyor. Bu faydalıdır, ancak doğrudan Çatallı Yolları ele almaz. Muazzam miktarda veriyi alacağı Wolfram ve Google'ın Yeni Bilim'in lezzetine sahip olduğunu hissediyor. Bu anlatının karışık bir kaydı var ve ben her zaman otomatik sihirden şüpheliyim.


3

Buradaki bu ayrıcalıklı gizlilik tekniğini fazlasıyla basitleştirdiğimden eminim, ancak bu fikir yüksek düzeyde mantıklı geliyor.

İyi bir sonuç ortaya çıkarmak için bir algoritma elde ettiğinizde (vay, test setimin doğruluğu gerçekten gelişti), hemen sonuca geçmek istemezsiniz. Yalnızca iyileştirme önceki algoritmadan önemli ölçüde büyük olduğunda bunu kabul etmek istersiniz . Gürültü eklemek için sebep budur.

EDIT: Bu blog, gürültü toplayıcının etkinliğini göstermek için iyi bir açıklama ve R kodlarına sahiptir, http://www.win-vector.com/blog/2015/10/a-simpler-explanation- of-fferic-privacy/


>τ

1
@CliffAB Bunun neden basit bir eşikten daha iyi sonuç verdiğini aynı şekilde dürtme hissine sahibim. Ama kanıtları var!
horaceT

... kendi örnekleri dışında, fazla uyumu önleme iddiasıyla tutarlı değildir ve sonuçların "yalnızca tahmini etkileri kabul ediyorum " dan beklediğimle tutarlıdır . >τ
Cliff AB

@CliffAB Ayrıntılı bilgi verebilir misiniz? nerede? Bu, merak uyandıran bir olasılık ....
horaceT

Daha önceki bağlantınızdaki slaytları ( icml.cc/2016/?page_id=97 ), 72 ve 73 numaralı slaytlarda, "Eşik" yöntemini kullanırken bile, her bir simülasyondaki yeni verilerden tutunma doğruluğu daha yüksektir gerçek bir geçerli istatistiksel prosedür değil, "standart elde tutma" dan (gerçekten "doğrulama veri setinin standart olarak kötüye kullanılması") daha iyisini yapar. Bilginize, arsa Bilim gazetesinde aynı olan slaytlarda görünür (sadece erişiminiz yoksa).
Cliff AB

3

Gürültü eklemenin aşırı uydurmanın önlenmesine yardımcı olduğu iddiası, burada gerçekten su tutuyor, çünkü gerçekte yaptıkları, bağlantının nasıl kullanıldığını sınırlıyor . Metodları aslında iki şey yapar: Bekletme hakkında sorulabilecek soru sayısını sınırlandırır ve cevapların her birinin bekletme verileri ile ilgili ne kadarını ortaya çıkardığını gösterir.

kknn/k

Dwork vd makalesi, olumsuz olarak sorulan sorularla bile , yaklaşık olarak etkili bir örneklem boyutu veren bir yöntem sunar.n/kk

Yöntemlerinin kalbi, 1970'lerin sonlarına dayanan algoritmik stabilite ile aşırı uyumluluk arasındaki ilişkidir (Devroye ve Wagner 1978). Kabaca, diyor ki

AXq=A(X)AXPqxqP

A()f(A())fqAA

Farklı gürültü ekleme prosedürlerinin aşırı uyumu nasıl kontrol ettiğini analiz eden birkaç makale var. Nispeten okunabilir olanı, Russo ve Zou’nunki https://arxiv.org/abs/1511.05219 ). Dwork ve ark. bakmak da yardımcı olabilir. (Feragatname: Konuyla ilgili iki makalem var, en sonuncusu adaptif hipotez testleriyle bağlantıyı açıklıyor: https://arxiv.org/abs/1604.03924 .)

Umarım herkes yardımcı olur.


0

İkinci cümlesine itiraz ediyorum. Bir kişinin eksiksiz veri analizi planının önceden belirlenmesi gerektiği fikri, önceden var olan bir bilimsel hipotezi onaylamaya çalıştığınız bir ortamda bile, haksızdır. Aksine, herhangi bir makul veri analizi, elde edilen gerçek verilere biraz dikkat gerektirecektir. Genel olarak inanan araştırmacılar, genel olarak anlamlılık testinin veri analizinin başlangıcı ve bitişi olduğuna inanan araştırmacılardır, tanımlayıcı istatistikler, çizimler, tahminler, tahminler, model seçimi, vb. İçin hiçbir rolü yoktur. birinin analitik planlarını önceden düzeltmek daha mantıklıdır çünkü konvansiyonel yöntemler pDeğerler hesaplanır, örneklem büyüklüğü ve yapılacak testlerin herhangi bir veri görmeden önceden kararlaştırılmasını gerektirir. Bu gereksinim analisti güçlendirir ve bu nedenle anlamlılık testlerini kullanmamak için birçok iyi nedenden biridir.

Analistin, verinin fazladan izin verdiğini gördükten sonra ne yapacağını seçmesine izin verilmesine itiraz edebilirsiniz. İyi bir analist, yaptığı tüm analizleri gösterecek, analitik kararlar vermek için verilerdeki hangi bilgilerin kullanıldığını ve çapraz onaylama gibi uygun yöntemlerin kullanıldığını açıkça söyleyecektir. Örneğin, elde edilen değerlerin dağılımına dayanarak değişkenleri yeniden kodlamak genellikle iyidir, ancak bazı analizler için seçildiğinde, bağımlı değişkenle en yakın gözlenen ilişkiye sahip 100'ün 3 belirleyicisi, ilişkilendirme tahminlerinin pozitif olacağı anlamına gelir. , ortalamaya regresyon prensibi tarafından önyargılı. Değişken seçimini öngörücü bir bağlamda yapmak istiyorsanız, çapraz doğrulama katlamalarınızdaki değişkenleri seçmeniz veya yalnızca egzersiz verilerini kullanmanız gerekir.


2
Önerdiğiniz şeylerin, uyarlamalı veri analizi yöntemlerini onayladığım keşif veri analizi (EDA) alanına uyuyor olduğuna inanıyorum. Ayrıca EDA'nın yetersiz olduğunu ve daha fazla kredi verilmesi gerektiğini düşünüyorum. Ancak, tüm bunlar eldeki soruya diktir; bu, "Bu yazarlar, model seçimi için doğrulama verilerini istatistiksel olarak geçerli bir yöntemle tekrar tekrar kullanmamıza gerçekten izin verdi mi?" Son cümleniz, benim gibi, sizin de bu tür bulgulardan şüpheci olduğunuzu gösteriyor.
Cliff AB

Sanırım tahmin, doğası gereği keşfedici, hayır. Bir timsahın maksimum uzunluğunun 12 feet olması gerektiğini söyleyen bir bilimsel hipoteziniz varsa ve bunu kontrol etmek için bir timsahın maksimum uzunluğunu tahmin etmeye çalışıyorsanız, doğrulayıcı bir analiz yapıyorsunuz.
Kodiolog

2
+ 1, mevcut üç indirmeye rağmen. Oldukça tartışmalı olduğunun farkında olduğum halde, bu cevabın ana noktası (2. cümleniz) ile aynı fikirdeyim. Genel olarak keşif ve doğrulayıcı analiz arasındaki farkın abartıldığını düşünüyorum; gerçek hayat analizi genellikle arada bir yerdedir. Bu, OP'nin Dwork ve arkadaşlarıyla ilgili sorusunu cevapladığınızı (hatta cevap vermeye çalıştığınızı) sanmıyorum. Kağıt.
amip diyor Reinstate Monica

@ amoeba "Yanıtladığınızı sanmıyorum (hatta cevap vermeye bile çalıştığımı sanmıyorum) OP'nin Dwork ve arkadaşlarının makalesiyle ilgili sorusu" - Doğru, bu hala bir cevap olarak görülmeye değer gözükse de Sorunun öncülü.
Kodiolog

2
+1 to @ amoeba adlı kullanıcının yorumu. Bu, soruya harika bir yorum olurdu, ama bir cevap değil.
S. Kolassa - Monica'yı
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.