Çiftler ass , , iid varsayımları genellikle istatistiklerde ve makine öğreniminde yapılır. Bazen iyi bir sebepten dolayı, bazen kolaylıktan uzak, bazen de sadece bu varsayımı yaptığımız için. Varsayım gerçekten gerekliyse ve sonuçların bu varsayımı yapmamalarının ne olduğunu tatmin edici bir şekilde cevaplamak için, kolayca bir kitap yazabilirim (eğer böyle bir şeyi kolayca yaparsanız). Burada, en önemli yön olarak bulduğum şeye kısa bir genel bakış sunmaya çalışacağım.i = 1 , ... , N(Xi,yi)i=1,…,N
Temel bir varsayım
En biz bir olasılık modelini öğrenmek isteyen düşünelim verilen dediğimiz, . Bu model hakkında herhangi bir varsayımda bulunmuyoruz, ancak böyle bir modelin var olduğu konusunda asgari varsayımı yapacağız.X p ( y ∣ X )yXp(y∣X)
- koşullu dağılımı verilen olduğu .X i p ( y i ∣ X i )yiXip(yi∣Xi)
Ne bu varsayımı hakkında dikkati çekiyor koşullu dağılımı olmasıdır bağlıdır sadece aracılığıyla . Modeli, örneğin tahmin için faydalı kılan şey budur. Varsayım sonucunda tutan özdeş dağıtılmış iid varsayımı altında kısmen, ama biz hakkında herhangi bir varsayım yapmazlar çünkü zayıf 'ın. i X i X iyiiXiXi
Aşağıda odak noktası çoğunlukla bağımsızlık rolü üzerinde olacaktır.
Modelleme
Bir öğrenme modeli için iki ana yaklaşım vardır verilen . Bir yaklaşım, ayrımcı modelleme, diğeri üretici modelleme olarak bilinir .XyX
- Ayrımcı modelleme : doğrudan , örneğin bir lojistik regresyon modeli, bir sinir ağı, bir ağaç veya rastgele bir orman. Çalışma modelleme varsayımı genellikle bu olacak 'ın verilmiş şartlı bağımsızdır subsampling veya ön yükleme güvenerek tahmin teknikleri iid altında en anlamlı ya da zayıf exchangeability varsayımı (aşağıya bakınız) yapmak olsa s'. Ancak genel olarak, ayrımcı modelleme için 'ler hakkında dağıtım varsayımları yapmamıza gerek yoktur . y i X i X ip(y∣X)yiXiXi
- Üretken modelleme : , eklem dağılımını, tipik olarak koşullu dağılım ve marjinal modelleyerek dağılım . Daha sonra hesaplamada Bayes'in formülünü kullanırız . Lineer diskriminant analizi ve saf Bayes yöntemleri örneklerdir. Çalışma modelleme varsayımı genellikle istatistiksel bağımsız varsayım olacaktır.p(X,y)(X,y)p(X∣y)p(y)p(y∣X)
Her iki modelleme yaklaşımında da çalışma modellemesi varsayımı, öğrenme yöntemlerini (veya tahmin edicilerini) türetmek veya teklif etmek için kullanılır. Bu (cezalandırılmış) log olasılığını en üst düzeye çıkarmak, ampirik riski en aza indirmek veya Bayesian yöntemlerini kullanmak olabilir. Çalışan modelleme varsayımı yanlış olsa bile, ortaya çıkan yöntem hala anlamlı bir uyumu sağlayabilir . p(y∣X)
Torbalama (önyükleme toplaması) gibi ayırt edici modelleme ile birlikte kullanılan bazı teknikler, veri kümesinden rastgele örneklenen verilere birçok model yerleştirerek çalışır. İdeal varsayımı (veya değişebilirlik) olmadan, yeniden örneklenen veri kümeleri, orijinal veri kümesine benzer bir ortak dağıtıma sahip olmayacaktır. Herhangi bir bağımlılık yapısı yeniden örnekleme tarafından "berbat oldu". Bunun hakkında derin düşünmedim, ancak bunun neden mutlaka öğrenme yöntemi olarak yöntemi kırması gerektiğini anlamıyorum . En azından çalışma bağımsızlığı varsayımlarına dayanan yöntemler için. Burada yanlış olduğum için mutluyum.p(y∣X)
Tutarlılık ve hata sınırları
Tüm öğrenme yöntemleri için temel soru, yakın modellerle sonuçlanıp sonuçlanmadıklarıdır . Tutarlılık ve hata sınırlamaları ile ilgili istatistiklerde ve makine öğreniminde geniş bir teorik literatür vardır. Bu literatürün bir temel amacı öğrenilen modeli yakın olduğunu kanıtlamak zaman büyüktür. Tutarlılık, kalitatif bir güvencedir; hata sınırları, yakınlığın (yarı) açıkça kantitatif kontrolünü sağlar ve yakınsama oranları verir.p(y∣X)p(y∣X)N
Teorik sonuçların hepsi, veri setindeki gözlemlerin ortak dağılımı hakkındaki varsayımlara dayanmaktadır. Genellikle yukarıda belirtilen çalışma modellemesi varsayımları yapılır (yani, ayrımcı modelleme için koşullu bağımsızlık ve üretken modelleme için ideal). Ayrımcı modelleme için, tutarlılık ve hata sınırları, 'nin belirli şartları yerine getirmesini gerektirecektir . Klasik regresyon böyle bir durum olduğunu için , tasarım matrisi belirtmektedir satırlarXi1NXTX→ΣN→∞XXTi. Daha zayıf koşullar tutarlılık için yeterli olabilir. Seyrek öğrenmede bu tür başka bir koşul sınırlı özdeğer durumudur, bakınız örneğin Kement için kehanet sonuçlarını kanıtlamak için kullanılan şartlar . Bazı teknik dağıtım varsayımları ile birlikte kimlik varsayımı, bu gibi bazı yeterli koşulların büyük olasılıkla yerine getirildiğini ve dolayısıyla ayrım varsayımsal modelleme için tutarlılık ve hata sınırları elde etmek için yeterli ancak gerekli olmayan bir varsayım olduğunu kanıtlayabilir.
Çalışma modellemesi bağımsızlık varsayımı, modelleme yaklaşımlarından herhangi biri için yanlış olabilir. Kaba bir temel kural olarak, veriler ergodik bir süreçten geliyorsa kişi tutarlılık bekleyebilir ve süreç yeterince hızlı bir şekilde karıştırılıyorsa , yine de bazı hata sınırları beklenebilir . Bu kavramların kesin bir matematiksel tanımı bizi asıl sorudan çok uzağa götürecektir. Öğrenme yöntemlerinin sonsuzluğa eğilimi gösterdiği gibi çalıştığı kanıtlanmış varsayımının yanı sıra bağımlılık yapıları bulunduğunu da belirtmek yeterlidir .N
Bağımlılık yapısı hakkında daha ayrıntılı bilgiye sahipsek, modellemede kullanılan çalışma bağımsızlığı varsayımını bağımlılık yapısını da yakalayan bir modelle değiştirmeyi seçebiliriz. Bu genellikle zaman serileri için yapılır. Daha iyi bir çalışma modeli daha verimli bir yöntemle sonuçlanabilir.
Model değerlendirmesi
Öğrenme yönteminin yakın bir model verdiğini ispatlamak yerine , "öğrenilen bir modelin" ne kadar iyi olduğuna ilişkin (göreceli) bir değerlendirme elde etmek çok pratik bir değerdir. Bu değerlendirme puanları iki veya daha fazla öğrenilmiş model için karşılaştırılabilir, ancak öğrenilmiş bir modelin ne kadar yakın olduğu konusunda kesin bir değerlendirme . Değerlendirme puanlarının tahminleri tipik olarak, veri setini bir eğitim ve test veri setine bölmeye dayalı olarak veya çapraz doğrulama kullanılarak deneysel olarak hesaplanır.p(y∣X)p(y∣X)
Torbalamada olduğu gibi, veri kümesinin rastgele bölünmesi, herhangi bir bağımlılık yapısını "karıştırır". Bununla birlikte, çalışma bağımsızlığı varsayımlarına dayanan yöntemler için, iID'den daha zayıf olan ergodiklik varsayımlarının değerlendirme tahminlerinin makul olması için yeterli olması gerekirken, bu tahminlerdeki standart hataların ortaya çıkması çok zor olacaktır.
[ Düzenleme: Değişkenler arasındaki bağımlılık, iid varsayımındaki dağılımdan farklı olarak öğrenilen modelin dağılımına neden olacaktır. Çapraz doğrulama ile üretilen tahmin, açıkça genelleme hatası ile ilgili değildir. Bağımlılık güçlü ise, büyük olasılıkla zayıf bir tahmin olacaktır.]
Özet (tl; dr)
Yukarıdakilerin tümü, sabit bir koşullu olasılık modeli, olduğu varsayımı altındadır . Bu nedenle, koşullu dağılımda tarafından yakalanmayan eğilimler veya ani değişiklikler olamaz .p(y∣X)X
verilen bir modelini öğrenirken , bağımsızlık olarak bir rol oynaryX
- öğrenme yöntemlerini türetmemize izin veren yararlı bir çalışma modelleme varsayımı
- tutarlılığı kanıtlamak ve hata sınırları sağlamak için yeterli ancak gerekli olmayan bir varsayım
- öğrenme için torbalama ve değerlendirme için çapraz doğrulama gibi rastgele veri bölme tekniklerini kullanmak için yeterli ancak gerekli olmayan bir varsayım.
Kesin olarak hangi kimliğe sahip olduğunun, aynı zamanda yeterli olduğunu anlamak da önemsiz ve bir dereceye kadar bir araştırma konusu.