İstatistiki öğrenmede kimlik varsayımının önemi


54

İstatistiksel öğrenmede, dolaylı veya açık bir şekilde, kişi her zaman eğitim setinin giriş / yanıt dosyasından oluştuğunu varsayar. vardır , bağımsız bir şekilde, aynı ortak dağılım çekilen ileD={X,y}Np ( X , Y )(Xi,yi) P(X,y)

p(X,y)=p(y|X)p(X)

ve belirli bir öğrenme algoritmasıyla yakalamaya çalıştığımız ilişkidir. Matematiksel olarak, bu iddialı varsayım yazıyor:p(y|X)

(Xi,yi)P(X,y),i=1,...,N(Xi,yi) independent of (Xj,yj),ij{1,...,N}

Bence bu varsayımın pratikte nadiren tatmin olduğu konusunda hemfikir olabiliriz , ilgili SE sorusuna ve @Glen_b ve @Luca'nın akıllıca yorumlarına bakın.

Benim sorum bu yüzden:

Uygulamadaki varsayım tam olarak nerede kritik hale geliyor?

[İçerik]

Bunu soruyorum çünkü belirli bir modeli (örneğin doğrusal regresyon yöntemlerini) eğitmek için bu kadar katı bir varsayımın gerekmediği birçok durumu düşünebilirim ya da en azından birinin doğru varsayım etrafında çalışıp sağlam sonuçlar elde edebileceğini düşünebilirim. Aslında sonuçlar genellikle aynı kalacaktır, daha doğrusu, değişecek olanın çıkartacağı çıkarımlardır (örneğin, doğrusal regresyonda heteroskedastiklik ve otokorelasyonu tutarlı HAC tahmin edicileri: fikir eski OLS regresyon ağırlıklarını tekrar kullanmak, ancak uyarlamaktır. Gauss-Markov varsayımlarının ihlalini hesaba katan OLS tahmincisinin sonlu örnek davranışları).

Benim tahminim bu nedenle istatistiksel bağımsız varsayım belli bir öğrenme algoritması yetiştirmek değil, böyle çapraz doğrulama gibi teknikler aslında iyi genelleştirme modelin yeteneğinin güvenilir bir ölçüm anlaması için kullanılabileceğini garanti edebilmek için değil gerekli olduğu , hangi İstatistiksel öğrenmede günün sonunda ilgilendiğimiz tek şey, çünkü verilerden gerçekten öğrenebileceğimizi gösteriyor. Sezgisel olarak, bağımlı verilere çapraz doğrulama kullanmanın iyimser bir şekilde önyargılı olabileceğini gerçekten anlayabiliyorum ( bu ilginç örnekte gösterildiği gibi / açıklandığı gibi ).

Benim için istatistiksel bağımsız böylece ile hiçbir ilgisi yoktur eğitim o modelin ile yapmak için belirli bir modeli ama her şeyi genelleştirilebilirlik . Bu, Huan Xu ve arkadaşları tarafından bulduğum bir makaleyle aynı fikirde görünüyor, burada "Markovian Örnekleri için Sağlamlık ve Genelleştirilebilirlik" konusuna bakın .

Buna katılıyor musun?

[Örnek]

Bu tartışmayı yardımcı olabilir, arasında akıllı bir seçim gerçekleştirmek için LASSO algoritmasını kullanarak problemi dikkate verilen özellikler eğitim örnekleri ile varsayabiliriz:, N ( X ı , y i ) ı = 1 , . . . , N x i = [ X- ı 1 , . . . , X i P ]PN(Xi,yi)i=1,...,N

Xi=[Xi1,...,XiP]
  • Girişler bağlıdır, dolayısıyla (her bir özellik, örneğin iid varsayımı ihlaline yol bir gözlemlemek dolayısıyla geçici otomatik korelasyon sokulması, nokta zaman serisi)j=1,. . ,PNXij=1,..,PN
  • Koşullu yanıtlar bağımsızdır.yi|Xi
  • Biz .PN

Hangi varsayımlar doğrudur? Bu varsayımın ihlal edilmesi, bu durumda, bir çapraz doğrulama yaklaşımı (tam veri setinde) kullanarak LASSO ceza katsayısı belirlemeyi planladığımızı varsayarsak + iç içe geçmiş bir onaylama kullanın. Bu öğrenme stratejisinin genelleme hatası hakkında bir fikir edinmek için (yararlı olması dışında LASSO'nun doğal avantajları / eksileri hakkındaki tartışmayı bırakabiliriz).λ


1
Sizi ilgilendiren bir referans çerçevesi verebilir misiniz, bu nedenle tartışma tüm yöntemlerde çok geniş değildir. Burada doğrusal regresyondan mı bahsediyoruz? Yoksa parametreler için nokta tahmininden mi bahsediyoruz, diyor MLE? Yoksa CLT çerçevesinden mi bahsediyoruz?
Greenparker

2
Ayrıca bağımlı olduğunu varsayıyorsanız , cezalandırılmış lojistik regresyonda, kişi log olasılığını cezalandırır. Veriler bağımsız değilse, ortak log olasılığını not edemezsiniz ve dolayısıyla ilişkili optimizasyon problemini tamamlayamazsınız. yi
Greenparker

1
Hayır, diğer tarafa doğru düşünüyorum - hızlı bir şekilde varsayımlara atlarsanız, gerekmediğine inanan , yanlış ( yansızlık gibi amaçlar için değil, aynı zamanda öngörücü güce zarar verme) de dahil olmak üzere başarısız olabilirsiniz . y
Christoph Hanck

3
Bağımsızlık varsayımının "yaygın olarak ihlal edildiği" konusunda hemfikir değilim. Zaman serileri çok özel bir durum - tipik bir örnek olmaktan çok istisna. Kimliğe bürünme, modelinizi basitleştirmenize ve daha temel bir model oluşturmanıza olanak tanır ve sık sık yapılabilir (örn. Davalarınız rastgele çizilir, bu yüzden bağımsız kabul edilebilir).
Tim

2
Örnekte, ikinci mermi, 'nin koşullu olarak kabul edilmemesi gerektiği, koşullu olarak bağımsız olduğu varsayılabilir, ancak koşullu dağılımın, ye bağlı olduğu düşünülür ve bu nedenle ile değişir . X, i iyiXii
NRH

Yanıtlar:


32

Çiftler ass , , iid varsayımları genellikle istatistiklerde ve makine öğreniminde yapılır. Bazen iyi bir sebepten dolayı, bazen kolaylıktan uzak, bazen de sadece bu varsayımı yaptığımız için. Varsayım gerçekten gerekliyse ve sonuçların bu varsayımı yapmamalarının ne olduğunu tatmin edici bir şekilde cevaplamak için, kolayca bir kitap yazabilirim (eğer böyle bir şeyi kolayca yaparsanız). Burada, en önemli yön olarak bulduğum şeye kısa bir genel bakış sunmaya çalışacağım.i = 1 , ... , N(Xi,yi)i=1,,N

Temel bir varsayım

En biz bir olasılık modelini öğrenmek isteyen düşünelim verilen dediğimiz, . Bu model hakkında herhangi bir varsayımda bulunmuyoruz, ancak böyle bir modelin var olduğu konusunda asgari varsayımı yapacağız.X p ( y X )yXp(yX)

  • koşullu dağılımı verilen olduğu .X i p ( y iX i )yiXip(yiXi)

Ne bu varsayımı hakkında dikkati çekiyor koşullu dağılımı olmasıdır bağlıdır sadece aracılığıyla . Modeli, örneğin tahmin için faydalı kılan şey budur. Varsayım sonucunda tutan özdeş dağıtılmış iid varsayımı altında kısmen, ama biz hakkında herhangi bir varsayım yapmazlar çünkü zayıf 'ın. i X i X iyiiXiXi

Aşağıda odak noktası çoğunlukla bağımsızlık rolü üzerinde olacaktır.

Modelleme

Bir öğrenme modeli için iki ana yaklaşım vardır verilen . Bir yaklaşım, ayrımcı modelleme, diğeri üretici modelleme olarak bilinir .XyX

  • Ayrımcı modelleme : doğrudan , örneğin bir lojistik regresyon modeli, bir sinir ağı, bir ağaç veya rastgele bir orman. Çalışma modelleme varsayımı genellikle bu olacak 'ın verilmiş şartlı bağımsızdır subsampling veya ön yükleme güvenerek tahmin teknikleri iid altında en anlamlı ya da zayıf exchangeability varsayımı (aşağıya bakınız) yapmak olsa s'. Ancak genel olarak, ayrımcı modelleme için 'ler hakkında dağıtım varsayımları yapmamıza gerek yoktur . y i X i X ip(yX)yiXiXi
  • Üretken modelleme : , eklem dağılımını, tipik olarak koşullu dağılım ve marjinal modelleyerek dağılım . Daha sonra hesaplamada Bayes'in formülünü kullanırız . Lineer diskriminant analizi ve saf Bayes yöntemleri örneklerdir. Çalışma modelleme varsayımı genellikle istatistiksel bağımsız varsayım olacaktır.p(X,y)(X,y)p(Xy)p(y)p(yX)

Her iki modelleme yaklaşımında da çalışma modellemesi varsayımı, öğrenme yöntemlerini (veya tahmin edicilerini) türetmek veya teklif etmek için kullanılır. Bu (cezalandırılmış) log olasılığını en üst düzeye çıkarmak, ampirik riski en aza indirmek veya Bayesian yöntemlerini kullanmak olabilir. Çalışan modelleme varsayımı yanlış olsa bile, ortaya çıkan yöntem hala anlamlı bir uyumu sağlayabilir . p(yX)

Torbalama (önyükleme toplaması) gibi ayırt edici modelleme ile birlikte kullanılan bazı teknikler, veri kümesinden rastgele örneklenen verilere birçok model yerleştirerek çalışır. İdeal varsayımı (veya değişebilirlik) olmadan, yeniden örneklenen veri kümeleri, orijinal veri kümesine benzer bir ortak dağıtıma sahip olmayacaktır. Herhangi bir bağımlılık yapısı yeniden örnekleme tarafından "berbat oldu". Bunun hakkında derin düşünmedim, ancak bunun neden mutlaka öğrenme yöntemi olarak yöntemi kırması gerektiğini anlamıyorum . En azından çalışma bağımsızlığı varsayımlarına dayanan yöntemler için. Burada yanlış olduğum için mutluyum.p(yX)

Tutarlılık ve hata sınırları

Tüm öğrenme yöntemleri için temel soru, yakın modellerle sonuçlanıp sonuçlanmadıklarıdır . Tutarlılık ve hata sınırlamaları ile ilgili istatistiklerde ve makine öğreniminde geniş bir teorik literatür vardır. Bu literatürün bir temel amacı öğrenilen modeli yakın olduğunu kanıtlamak zaman büyüktür. Tutarlılık, kalitatif bir güvencedir; hata sınırları, yakınlığın (yarı) açıkça kantitatif kontrolünü sağlar ve yakınsama oranları verir.p(yX)p(yX)N

Teorik sonuçların hepsi, veri setindeki gözlemlerin ortak dağılımı hakkındaki varsayımlara dayanmaktadır. Genellikle yukarıda belirtilen çalışma modellemesi varsayımları yapılır (yani, ayrımcı modelleme için koşullu bağımsızlık ve üretken modelleme için ideal). Ayrımcı modelleme için, tutarlılık ve hata sınırları, 'nin belirli şartları yerine getirmesini gerektirecektir . Klasik regresyon böyle bir durum olduğunu için , tasarım matrisi belirtmektedir satırlarXi1NXTXΣNXXiT. Daha zayıf koşullar tutarlılık için yeterli olabilir. Seyrek öğrenmede bu tür başka bir koşul sınırlı özdeğer durumudur, bakınız örneğin Kement için kehanet sonuçlarını kanıtlamak için kullanılan şartlar . Bazı teknik dağıtım varsayımları ile birlikte kimlik varsayımı, bu gibi bazı yeterli koşulların büyük olasılıkla yerine getirildiğini ve dolayısıyla ayrım varsayımsal modelleme için tutarlılık ve hata sınırları elde etmek için yeterli ancak gerekli olmayan bir varsayım olduğunu kanıtlayabilir.

Çalışma modellemesi bağımsızlık varsayımı, modelleme yaklaşımlarından herhangi biri için yanlış olabilir. Kaba bir temel kural olarak, veriler ergodik bir süreçten geliyorsa kişi tutarlılık bekleyebilir ve süreç yeterince hızlı bir şekilde karıştırılıyorsa , yine de bazı hata sınırları beklenebilir . Bu kavramların kesin bir matematiksel tanımı bizi asıl sorudan çok uzağa götürecektir. Öğrenme yöntemlerinin sonsuzluğa eğilimi gösterdiği gibi çalıştığı kanıtlanmış varsayımının yanı sıra bağımlılık yapıları bulunduğunu da belirtmek yeterlidir .N

Bağımlılık yapısı hakkında daha ayrıntılı bilgiye sahipsek, modellemede kullanılan çalışma bağımsızlığı varsayımını bağımlılık yapısını da yakalayan bir modelle değiştirmeyi seçebiliriz. Bu genellikle zaman serileri için yapılır. Daha iyi bir çalışma modeli daha verimli bir yöntemle sonuçlanabilir.

Model değerlendirmesi

Öğrenme yönteminin yakın bir model verdiğini ispatlamak yerine , "öğrenilen bir modelin" ne kadar iyi olduğuna ilişkin (göreceli) bir değerlendirme elde etmek çok pratik bir değerdir. Bu değerlendirme puanları iki veya daha fazla öğrenilmiş model için karşılaştırılabilir, ancak öğrenilmiş bir modelin ne kadar yakın olduğu konusunda kesin bir değerlendirme . Değerlendirme puanlarının tahminleri tipik olarak, veri setini bir eğitim ve test veri setine bölmeye dayalı olarak veya çapraz doğrulama kullanılarak deneysel olarak hesaplanır.p(yX)p(yX)

Torbalamada olduğu gibi, veri kümesinin rastgele bölünmesi, herhangi bir bağımlılık yapısını "karıştırır". Bununla birlikte, çalışma bağımsızlığı varsayımlarına dayanan yöntemler için, iID'den daha zayıf olan ergodiklik varsayımlarının değerlendirme tahminlerinin makul olması için yeterli olması gerekirken, bu tahminlerdeki standart hataların ortaya çıkması çok zor olacaktır.

[ Düzenleme: Değişkenler arasındaki bağımlılık, iid varsayımındaki dağılımdan farklı olarak öğrenilen modelin dağılımına neden olacaktır. Çapraz doğrulama ile üretilen tahmin, açıkça genelleme hatası ile ilgili değildir. Bağımlılık güçlü ise, büyük olasılıkla zayıf bir tahmin olacaktır.]

Özet (tl; dr)

Yukarıdakilerin tümü, sabit bir koşullu olasılık modeli, olduğu varsayımı altındadır . Bu nedenle, koşullu dağılımda tarafından yakalanmayan eğilimler veya ani değişiklikler olamaz .p(yX)X

verilen bir modelini öğrenirken , bağımsızlık olarak bir rol oynaryX

  • öğrenme yöntemlerini türetmemize izin veren yararlı bir çalışma modelleme varsayımı
  • tutarlılığı kanıtlamak ve hata sınırları sağlamak için yeterli ancak gerekli olmayan bir varsayım
  • öğrenme için torbalama ve değerlendirme için çapraz doğrulama gibi rastgele veri bölme tekniklerini kullanmak için yeterli ancak gerekli olmayan bir varsayım.

Kesin olarak hangi kimliğe sahip olduğunun, aynı zamanda yeterli olduğunu anlamak da önemsiz ve bir dereceye kadar bir araştırma konusu.


2
Bu son derece iyi cilalanmış bir cevap. Bu noktada dikkat çekici ve bana bireysel çalışma için yeterli referans veriyor, bunun için çok teşekkür ederim @NRH çok heyecanlıyım. Sadece soruyu cevaplayan diğer kişileri cesaretlendirmek için ödül bırakacağım, ancak bu konuyu zaten kabul ettiğim cevap olarak işaretledim, çünkü tüm orijinal kaygılarımı güzel bir şekilde ele aldım.
Quantuple

10

Ne iid varsayım devletler rastgele değişkenler olmasıdır bağımsız ve özdeş dağıtılmış . Bunun ne anlama geldiğini resmi olarak tanımlayabilirsiniz, ancak gayrı resmi olarak tüm değişkenlerin birbirlerinden bağımsız olarak aynı tür bilgiler sağladığını söyler (ilgili değişebilirlik hakkında da okuyabilirsiniz ).

Soyut fikirlerden bir an için somut örneğe geçelim: çoğu durumda verileriniz matrisde saklanabilir, gözlemler satır bazında ve değişkenler sütun bazında. Verilerinizin tanımlandığını varsayarsanız , o zaman sizin için yalnızca sütunlar arasındaki ilişkiler hakkında zahmete girmeniz ve satırlar arasındaki ilişkiler hakkında zahmete girmeniz gerekmediği anlamına gelir. Her ikisini de rahatsız ettiyseniz, o zaman sütunlardaki sütunların bağımlılığını ve satırlardaki satırları, yani her şeydeki her şeyi modelleyeceksiniz. Sadeleştirmeler yapmak ve her şeye bağlı olarak her şeyin istatistiksel bir modelini oluşturmak çok zor .

Sürekliliğin, çapraz doğrulama veya önyükleme gibi yöntemleri kullanmamızı sağladığını doğru bir şekilde fark ettiniz, fakat aynı zamanda merkezi limit teoremini kullanmayı da mümkün kılıyor ve modelleme için basitleştirmeler yapmamızı sağlıyor (sütunlar halinde düşünerek) ).

LASSO örneğinde fark ettiğiniz gibi, bağımsızlık varsayımı genellikle şartlı bağımsızlığa yumuşatılmıştır . Böyle bir durumda bile, bağımsız ve aynı şekilde dağılmış "parçalara" ihtiyacımız var. Benzer, daha yumuşak varsayım, sık sık bahsettiğiniz zaman serili modeller için yapılır, durağanlığı varsayar (bu nedenle bağımlılık vardır, ancak aynı zamanda ortak bir dağıtım vardır ve seri zaman içinde tekrar denir - yine "yer" parçaları). Bazı genel fenomenler hakkında aynı fikri taşıyan birtakım benzer şeylerin gözlemlenmesi meselesidir. Çok sayıda farklı ve bağımlı şeyimiz varsa, genelleme yapamayız.

Hatırlamanız gereken şey, bunun yalnızca bir varsayım olduğu, bu konuda kesin değiliz. Bu, herkesin bağımsız olarak, bazı ortak fenomenler hakkında benzer bilgileri aktaracak kadar yeterli şeye sahip olmakla ilgilidir. Eğer şeyler birbirlerini etkiledilerse, açıkça benzer bilgileri ileteceklerdi, bu yüzden bu kadar faydalı olmayacaklardı.

Bir sınıftaki çocukların yeteneklerini öğrenmek istediğinizi, bu yüzden onlara bazı testler yaptığınızı düşünün. Test sonuçlarını, yalnızca birbirlerinden bağımsız olarak, kendi başlarına yaptıkları takdirde, çocukların yeteneklerinin bir göstergesi olarak kullanabilirsiniz. Eğer etkileşime girerlerse, muhtemelen en zeki çocuğun veya en etkili çocuğun yeteneklerini ölçersiniz. Bu, çocuklar arasında herhangi bir etkileşim veya bağımlılık olmadığını varsaymanız gerektiği anlamına gelmez, sadece testleri kendi başlarına yaptıkları anlamına gelmez. Çocukların aynı zamanda “aynı şekilde dağıtılması” gerekir, bu yüzden farklı ülkelerden gelemezler, farklı dilleri konuşamazlar, farklı yaşlarda olabilirler çünkü sonuçları yorumlamayı zorlaştıracaklardır (belki soruları anlamadılar ve rastgele cevapladılar). Verilerinizin kimliği olduğunu varsayabiliro zaman genel bir model oluşturmaya odaklanabilirsin. Kimlik bilgisi olmayan verilerle başa çıkabilirsiniz, ancak daha sonra verilerinizdeki "gürültü" hakkında endişelenmeniz gerekir.


Asıl sorunuzun yanı sıra, kimliği olmayan verilerle çapraz doğrulama hakkında da sorular soruyorsunuz . Siz de, kimliğe bürünme varsayımının önemini vurguluyorsanız da, aynı zamanda bu varsayımı yerine getirmeme problemini de abartıyorsunuz. Önyükleme veya çapraz doğrulama gibi yeniden örnekleme yöntemlerini kullanırken bu tür verilerle nasıl başa çıkabileceğimizin birden fazla yolu vardır. Eğer zaman serileriyle uğraşıyorsanız, değerlerin bağımsız olduğunu varsayamazsınız, bu nedenle değerlerin rastgele kesirini almak kötü bir fikir olacaktır çünkü verinin kendi kendini ilişkilendiren yapısını yok sayar. Bu nedenle, zaman serileri ile genellikle bir adım önde çapraz doğrulama kullanıyoruzyani bir sonraki değeri tahmin etmek için serinin bir parçası olursunuz (modelleme için kullanılmaz). Veri varsa Benzer şekilde, yapı kümelenmiş , sen bütün kümeleri örnek Verilerin niteliğini korumak için. Bu nedenle, modellemede olduğu gibi, çapraz onaylama yaparken de net olmayan durumlarla başa çıkabiliriz , ancak iID verileri için tasarlanmış yöntemler bu gibi durumlarda geçerli olmadığından, yöntemlerimizi verilerin niteliğine uyarlamamız gerekir .


Kaygılarıma cevap vermek için biraz zaman ayırdığınız için teşekkür ederim. Siz de, bu varsayımın neyi aktardığına dair gerçekten güzel bir açıklama yaparken ... ... beni sinirlendiriyor. (1) için eğitim LASSO yetmez (o kimse cezalandırılmış log olabilirlik tahmini yazmasına olanak tanır beri), fakat etkisi nedir bir varlık değil id örneği (eğer öngörücüler bir zaman serisinden geliyorsa ve dolayısıyla otomatik olarak ilişkili ise durum böyledir). (2) Ayrıca, örneğin çapraz doğrulama kullanımında değiş tokuş yapılamamasının sonucu nedir? ( yi|XiXi
ctd

(ctd) ... Başka bir deyişle, cevabınız kesinlikle iid konseptine biraz ışık tutsa da, teknik olarak daha fazla şey bilmek istiyorum: bu ihlal edildiğinde, etkileri nelerdir?
Quantuple

@ Quantuple, kimliği belirsiz veriler için yöntemler kullanır, örneğin zaman serisi örneğinde bootstrap vb. Tüm veri bloklarında
Tim

Tekrar teşekkürler. Gerçekten de bu tür teknikler hakkında bir yerlerde okuduğumu hatırlıyorum. Tüm potansiyel aday yöntemlerini tartışan bir kaynak var mı? Ben kısa bir süre sonra okumaya çalışacağım C. Bergmeir, R. Hyndman, B. Koo "Zaman Serileri Tahminini Değerlendirmede Çapraz Doğrulamanın Geçerliliği Üzerine Bir Not" ile ilgili makaleye rastladım.
Quantuple

1
@Quantuple check classic Efron ve Tibshirani tarafından "Bootstrap'a Giriş" ve Davison ve Hinkley tarafından bootstrap hakkında okumak için "Bootstrap Yöntemleri ve Uygulamaları"; zaman serisi el kitapları, bu gibi veriler için çapraz doğrulama ve önyükleme kullanımının nasıl kullanılacağını açıklar (yani, bir adım önde çapraz doğrulama). Ayrıca düzenlememi de kontrol et.
Tim

3

Birinin kimliğini güvenli bir şekilde göz ardı edebileceği tek yer, lisans istatistikleri ve makine öğrenimi kursları. Bunu yazdın:

Biri, varsayım etrafında çalışabilir ve sağlam sonuçlar elde edebilir. Aslında sonuçlar genellikle aynı kalacak, daha doğrusu, değişecek olanın çekebileceği çıkarımlar ...

Bu, yalnızca modellerin işlevsel biçiminin temel olarak doğru olduğu varsayılırsa geçerlidir. Ancak, böyle bir varsayım, kimliğinden daha az mantıklıdır.

Uygulamalı modelleme açısından kimliğin kritik öneme sahip olduğu en az iki yol vardır:

  1. Sorunuzda not ettiğiniz gibi, çoğu istatistiksel çıkarımda açık bir varsayımdır. Çoğu gerçek dünya modellemesinde, bazı aşamalarda, değişken seçimi ve model karşılaştırması sırasında olduğu gibi özellikleri test etmek için çıkarım kullanmamız gerekir. Dolayısıyla, her bir model uyumu, ihlal ihlallerine rağmen, tamam olsa da, yine de yanlış modeli seçerek sona erebilir.

  2. İdİd ihlalleri yoluyla düşünmenin veri üretme mekanizması hakkında düşünmenin yararlı bir yolu olduğunu düşünüyorum. İki örnek:

    • Veriler kümelenmişse, bu bir kimlik ihlalidir. Bunun bir çözümü bir karışım modeli olabilir. Bir karışım modelinden çıkartacağım çıkarım genel olarak OLS'den çektiğimden tamamen farklı.
    • Bağımlı ve bağımsız değişkenler arasındaki doğrusal olmayan ilişkiler genellikle, kimlikleri araştırmanın bir parçası olarak incelerken ortaya çıkar.

Tabii ki, şimdiye kadar yaptığım modellerin çoğunda, artıkların dağılımını gerçekten normal bir dağılıma yakın herhangi bir şeye indirgeme arayışımda başarısız oldum. Ancak, yine de, gerçekten, gerçekten, çok zoru deneyerek çok şey kazanıyorum.


Cevabınız için çok anlayışlı olan teşekkürler. (1) 'in son cümlesine göre, gözlemlenen verilere uygun bir şekilde uygun birkaç modeliniz olabilir, ancak standart model seçim tekniklerini kullanacağınız zaman (örneğin çapraz doğrulama) en iyisini seçemezsiniz ( genelleştirilebilirlik açısından), çünkü çıkardığınız sonuç IID ihlali nedeniyle önyargılı mı olacak? (2) Bana
yazılanları

(ctd) ... fakat asıl soru, bir model tahmin ettikten sonra, kimliği belirsiz artıklarla değil, kimliği belirsiz eğitim örnekleriyle (x, y) ilgiliydi. Sanırım sorum şu ki, kimliği belirsiz eğitim örnekleriniz varsa (örneğin, zaman serisi), kimliklerini belirtmek için bir ön işleme adımı eklemek zorunda kalır mısınız? Bunu yapmazsanız ve modelinizi tahmin etmek / çapraz onaylamak için standart prosedürü uygularsanız, uyarı nerede?
Quantuple

1
Fikirsiz eğitim örnekleriniz varsa, fikir, özlü olmayan doğayı hesaba katan ve yerleştirilen artıkları üreten bir model bulmaktır. Verileri önceden işlemenin mantıklı olduğu bazı problemler olsa da (örneğin, doğrusal regresyondaki değişkenlerin dönüşümleri), birçok iid problemi, iid problemini açıkça ele alan bir model bularak daha iyi ele alınacaktır. Örneğin, zaman serilerindeki transfer işlevleri veya kesitsel verilerde hiyerarşik modeller.
Tim,

Zaman serisi verilerinin genellikle bir tür bağımlılık göstermesi nedeniyle, örneğin transfer fonksiyonları gibi uyarlanmış istatistiksel modeller aracılığıyla bunu yakalamanın doğal olduğu gerçeğine katılıyorum. Bu eğitim söz konusu olduğunda. Şimdi, geçerliliği onaylama (CV) söz konusu olduğunda, sanırım tanıklıksızlığı hesaba katmak için özel yöntemlere ihtiyacım var? Demek istediğim, transfer işlevlerini kullanmak, verilerimin her şeyden önce tanımlanmadığı gerçeğini değiştirmedi. Bir yerde böyle özel yöntemlerin bir listesi var mı? Kimlik bilgisi olmayan verilerle standart CV yöntemini kullanırken iyimser önyargı ne kadar büyük?
Quantuple

1
Çapraz doğrulama yönteminin niteliğine ve soruna bağlı olacaktır. İşin püf noktası, dolaylı olarak kimliği etrafında yapılandırılmamış çapraz doğrulama yöntemlerini kullanmak olduğunu düşünüyorum. Örneğin, bir jacknife çok az anlam ifade edecektir. Ancak, numuneyi tahmin, test ve doğrulama numunelerine bölmek muhtemelen mümkün olacaktır. Ancak, bu gerçekten orjinalinizle farklı bir soru ve benim uzmanlık alanım değil.
Tim

2

Kanımca, iddialı varsayımın istatistiksel öğrenmede (veya genel olarak istatistikler) önemli olmasının neden olduğu iki sıradan sebep var.

  1. Perde arkasındaki matematiğin çoğu bu varsayıma dayanır. Öğrenme yönteminizin aslında birden fazla veri kümesi için işe yaradığını ispatlamak istiyorsanız, sonuçta ortaya çıkacak. Bundan kaçınmak mümkündür, ancak matematik birkaç kat daha zor hale gelir.

  2. Verilerden bir şeyler öğrenmek istiyorsanız, öğrenecek bir şey olduğunu varsaymanız gerekir. Her veri noktası farklı mekanizmalarla oluşturulmuşsa öğrenme mümkün değildir. Bu nedenle, bir şeyin verilen veri setini birleştirdiğini varsaymak gerekir. Verilerin rastgele olduğunu varsayarsak, o zaman bu doğal olarak bir olasılık dağılımıdır, çünkü olasılık dağılımı rasgele değişken hakkındaki tüm bilgileri içerir.

    x1,...,xnxiFn

    (x1,...,xn)Fn.

    FnFmnmnFnFnnFn=Fn,xiFFnFmve bir tahmin etmek için veri noktamız var . Bu iki sorunun çözülmesinin başka yolları da var, ancak her istatistiksel öğrenme yönteminin bu sorunu çözmesi gerektiğini ve bunun varsayımın bunu yapmanın en karmaşık yollarından biri olduğuna inanmak önemlidir.nF


Soruya ilginç almak teşekkür ederiz. İlk amacınız söz konusu olduğunda, iddialı bir varsayımın muhakeme içinde bir yere yayılacağını düşünmek gerçekten kolaydır, ancak bir referansınız olur (inanmak istemiyorum, sadece istediğim gibi). tam olarak nerede olduğunu biliyorum). İkinci noktan berrak ve berrak bir şekilde hiç düşünmemiştim. Ancak eğitim için, bu "girdi" verilerinin dağılımı genel olarak modeller için önemli değildir, değil mi? LASSO örneğinde, yalnızca ( xyx
ctd

(ctd) ... ama ilk kurşun noktanızda belirttiğiniz gibi, LASSO'nun genelleme özelliklerine baktığımızda, iddialı eğitim örneklerinin varsayımı geri gelecektir. Güzel olurdu (ve umutsuzca aradığım şeyi tahmin ediyorum), örneğin, varsayımın ihlal edilmesinin, örneğin çapraz onaylama tahmincisine nasıl iyimser bir önyargı getirdiğini gösteren bir referans / basit teknik açıklamadır.
Quantuple

Girdi verilerinin dağıtımı önemlidir. Verilerin dağılımının bir şekilde sabit olduğunu varsaymazsak, eğitimin sağlam bir modele, yani test verilerinde iyi performans gösteren bir sonuç vereceğine güvenemeyiz. Kimlik varsayımının başarısız olduğunu ya da bağımsızlık varsayımının ihlal edilmediğini, ancak verilerin aynı şekilde dağıtılması gerekmediğini varsayalım. Bu DGP aşağıdaki olması anlamına gelir: için ve için . Farz edelim ki, ve bağımsızdır. yi=α+β1x1i+εii=1,...,n/2yi=α+β2x2i+εii=n/2+1,...,nx1ix2i
mpiktas

Şimdi bir eğitim seti ve bir test seti . Hangi eğitim yöntemini seçerseniz seçin, veriler aynı olmayan iki farklı işlem tarafından üretildiğinden, test setinde korkunç bir performans sergileyecektir. Bu, tartışmalı bir örnektir, ancak hiçbir şey gerçek istatistiksel öğrenme örneğinde olmasını engellemez. i = N / 2 + 1 , . . . , ni=1,...,n/2i=n/2+1,...,n
mpiktas

Evet kesinlikle ... Çok hızlı yazdım ve net olmayan bir yorumla sonuçlandı. "Giriş verilerinin dağıtımı modeller için önemli değil" yazdığımda, aslında bir kestirimin tahmin edilmesinde bağımsız bir kimliğin varsayımının bir parçası olmadığı gerçeğini düşünüyordum (regresyon işlevini etkilemediğinden ). Varsayım varsayımının özdeş kısmı söz konusu olduğunda, istatistiksel çıkarım tekerleğinin harekete geçirilmesi gerçekten gerekli bir varsayımdır (sözlerinizde "her veri noktasının farklı bir mekanizma tarafından üretilmesini" önler). D [ y | X ]xE[y|X]
Quantuple

1

Bazı durumlarda, veri olduğunu vurgulamak isteriz değil IID ve istatistiksel öğrenme hâlâ mümkündür. Tüm gözlemlerin ortak dağılımı için tanımlanabilir bir modele sahip olmak çok önemlidir; Eğer gözlemler doğruysa, o zaman bu ortak dağılım, tek gözlemlerin marjinal dağılımından kolayca elde edilebilir. Ancak bazı durumlarda, ortak dağıtım, marjinal bir dağılıma başvurmadan doğrudan verilir.

Gözlemlerin kimliği olmadığı yaygın olarak kullanılan bir model, doğrusal karışık modeldir: , , , , , ve . (Tasarım) matrisi ve sabit olarak kabul edilir, bir parametre vektörüdür, rastgele bir vektördür ve , ve

Y=Xα+Zu+ε
YRnXRn×pαRpZRn×quRqεRnXZαuuN(0,τIq)εN(0,σ2In)τσ2 , modelin parametreleridir.

Bu model en iyi : dağılımını vererek ifade edilir Öğrenilecek parametreler , , . boyutunda bir tek vektör gözlenir; bileşenleri iid değilY ~ N ( X- α , τ Z , Z ' + σ 2 I , n ) . αY

YN(Xα,τZZ+σ2In).
ασ 2 Y nτσ2Yn
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.