“Verilerin kendisi için konuşmasına izin ver” neyi amaçlıyor?


10

Aşağıdaki makaleyi okurken, aşağıdaki ifadeyle karşılaştım:

Belirtildiği gibi, Benzecri'nin [1973] “verinin kendisi için konuşmasına izin verme” fikri doğrultusunda olasılıklı modellere atıfta bulunulmadan sunulur.

(alıntı JP Benzécri'den alınmıştır. L'analyse des données. Tome II: L'analyse des correspondances. Dunod, 1973.)

Bu makaleyi nasıl okuduğumdan, "verinin kendisi için konuşmasına izin ver" ifadesi , bir olasılık işlevi veya veri oluşturma sürecine bakılmaksızın veriler üzerinde çeşitli ölçütleri dikkate alma çizgisi boyunca bir şey anlamına gelir .

Daha önce "verinin kendisi için konuşmasına izin ver" ifadesini duymuş olsam da, ima edilen şey hakkında fazla düşünmedim. Yukarıdaki yorumum bu alıntıyla kanonik olarak ima edilen şey mi?


9
Alıntı kendi için konuşsun.
Mark L. Stone

@ MarkL.Stone: Verilere çok benzer şekilde, alıntılar bağlamla daha iyi anlaşılır
Cliff AB

Yanıtlar:


8

Yorum bağlama bağlıdır, ancak bunun ortaya çıktığı bazı ortak bağlamlar vardır. İfade genellikle Bayesci analizde, analizdeki posterior dağılımın önceki varsayımlara karşı sağlam olmasını ideal olarak istediğimizi vurgulamak için kullanılır, böylece verilerin etkisi posteriora "baskın" olur. Daha genel olarak, alıntı genellikle verileri modelin doğrulanamayan yapısal bir varsayımı olan bir yoruma zorlamak yerine, istatistiksel modelimizin verilerin yapısına uymasını istediğimiz anlamına gelir.

Bahsettiğiniz özel alıntı ek tırnak ile desteklenmektedir: "Model verileri tam tersine değil, takip etmelidir" (Benzécri J (1973) L'Analyse des Données'den tercüme edilmiştir. Tome II: L'Analyse des Correspondances . Dunod, s. 6). Benzécri o istatistiksel modeller gerektiğini savundu ayıklamak yerine yapıyı empoze daha verilerden yapısını. Analistin "verilerin konuşmasına izin vermesine" izin vermek için keşifsel grafik yöntemlerinin kullanımını çok önemli olarak gördü.


(+1) Bunu göz önünde bulundurarak, ilk bağlantılı makaledeki alıntıyı, bu yöntemlerin modele dayalı bir bağımlılık yapısı yerine ampirik kovaryans yapısına bakarak ima ettiğini ima ediyorum.
Cliff AB

1
Evet, bence bu doğru. Benzécri'nin veri analizinin temel olarak PCA'daki öz-ayrışma ile eşdeğer olduğunu iddia ettiğini belirtmek gerekir. "Sonuç olarak, iyi bir matematikte bir veri analizi yapmak, sadece özvektörleri araştırıyor; tüm bilimi (veya sanatı) köşegenleştirmek için doğru matrisi bulmakta" diyor. (bk. Husson ve ark. 2016 , s.2)
Ben - Eski

2
Ha, bu onun için çok ilginç bir iddia. Bu bağlam, makaledeki alıntıyı daha anlamlı hale getirir.
Cliff AB

Evet, oldukça aşırı!
Ben - Monica

(1). İlk bakışta, alıntıya katılmamak zor gibi görünse de (nihayetinde neden bir şey "dayatmak iyi bir şey olabilir?), Örneğin parametrik olmayan istatistiklerde boyutsallığın laneti, bunun, parametrik bir modelle dinlerken, kendisi için konuşan verileri dinlemek daha kolay.
Christoph Hanck

1

2005'te "Veri Madenciliği" istatistik mesleği için en son tehdit olduğunda, "Veri Madenciliği İlkeleri" ile bir tanesi "verilerin konuşmasına izin ver" ("kendisi için" olup olmadığını hatırlayamıyorum) bir poster gördüğümü hatırlıyorum dahil). "Veri Madenciliği" olarak değerlendirilebilecek algoritmalar hakkında düşünürseniz, apriori ve özyinelemeli bölümleme akla gelir, istatistiksel varsayımlar olmadan motive edilebilen ve temeldeki veri kümesinin oldukça temel özetleriyle sonuçlanan iki algoritma.

@ Ben o zaman ben ifade tüm geçmişini anlıyor, ama alıntı alıntı olarak düşünüyor:

MCA, kategorik veriler için PCA'nın karşılığı olarak görülebilir ve yansıtılan noktaların değişkenliğini en üst düzeye çıkarma anlamında verileri en iyi temsil eden bir alt alan sağlamak için veri boyutunun azaltılmasını içerir. Belirtildiği gibi, Benz´ecri'nin [1973] “verinin kendisi için konuşmasına izin verme” fikri doğrultusunda olasılıklı modellere herhangi bir atıfta bulunulmaksızın sunulur.

bana öyle geliyor ki, MCA prosedürü, hiçbir modelleme olmaksızın motive edilebileceği ve mantıklı bir veri seti üzerinde mekanik bir işlem olduğu için apriori veya özyinelemeli bölümlemeye (veya cehennem, bu konu için aritmetik ortalamaya) benziyor. bazı ilk prensiplere göre.

Verilerin konuşmasına izin verme spektrumu vardır. Güçlü önceliğe sahip tamamen bayesci modeller bir ucunda olacaktı. Sık olmayan parametrik olmayan modeller diğer tarafa daha yakın olacaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.