Verilerin sıfır ortalaması olması fikri


12

Sıklıkla, bir veri kümesinin bir boyutunu / özelliğini, ortalamanın tüm öğelerden kaldırılmasıyla sıfır ortalama olarak görüyorum. Ama bunu neden yapacağımı hiç anlamadım? Bunu bir önişleme adımı olarak yapmanın etkisi nedir? Sınıflandırma performansını artırıyor mu? Veri kümesi hakkında bir şeyler yanıtlamaya yardımcı olur mu? Verileri anlamak için bir görselleştirme yaparken yardımcı olur mu?


9
Bu yaklaşıma merkezleme denir . Uygulamalarından biri, regresyon modelinin kesişmesini "x ortalama olduğunda y tahmini" olarak çevirerek kesmeyi biraz daha yorumlanabilir hale getirmektir.
Penguin_Knight

Merkezlenmiş bir özellik / veri kümesinin de iyi koşullandırılmış olduğu söylenebilir . Görsel bir açıklama için buraya bakın . Normalleştirici girişin çalışması, degrade inişini daha kolay hale getirir.
ayarlandı

Yanıtlar:


12

"Verileri ortalamasına göre ortalamanın" (bundan sonra "anlamsızlaştırma" olarak anılacaktır) yararlı olduğu bazı durumlar:

N(10,4)N(100,4)

2) Daha yüksek momentlerin hesaplarını basitleştirin: rastgele bir değişkene sabit eklemek, değişkenliğini veya başka bir rastgele değişkenle kovaryansını değiştirmemesine rağmen, yine de sıfır olmayan bir ortalamanız varsa ve ayrıntılı hesaplamaları yazmanız gerekir, Eğer varsa tüm şartları yazmak ve onlar dışarı iptal olduğunu göstermektedir. Değişkenler tanımsızsa, birçok işe yaramaz hesaplama kaydedersiniz.

3) Ortalamalarına dayalı rastgele değişkenler Merkezi Limit Teoreminin konusudur

4) "Ortalama değer" den sapmalar, çoğu durumda ilgilenilen meseledir ve rastgele değişkenlerin gerçek değerleri yerine "ortalamanın üstünde veya altında" olma eğilimindedir. Ortalamanın altında negatif değer olarak "görsel" ve / veya sayısal olarak sapmalar ve pozitif değerler olarak ortalamanın üzerindeki sapmalar, mesajı daha net ve güçlü hale getirir.

Daha ayrıntılı tartışmalar için ayrıca bkz.

Çoklu regresyon yürütürken, öngörücü değişkenlerinizi ne zaman ortalamalı ve ne zaman standartlaştırmalısınız?

Verileri çoklu regresyonda merkezleme

CV'de "merkezlenmiş veri" ararsanız, başka ilginç gönderiler de bulacaksınız.


@OP: Bence bu cevap kabul edilmelidir.
rottweiler

4

Ayrıca, pratik nedenlerden dolayı, örneğin sinir ağlarını eğitirken verilerin merkezlenmesi avantajlıdır.

Fikir, bir sinir ağını eğitmek için, bazı degrade tabanlı bir yaklaşım kullanarak dışbükey olmayan bir optimizasyon problemini çözmesi gerekir. Degradeler, geri çoğaltma yoluyla hesaplanır. Şimdi, bu degradeler girdilere bağlıdır ve verilerin ortalanması degradelerde olası önyargıları ortadan kaldırır.

Somut olarak, sıfır olmayan bir ortalama, büyük özde bir olarak yansıtılır; bu, gradyanların bir yönde diğerlerinden (sapma) daha büyük olma eğilimindedir, böylece yakınsama sürecini yavaşlatır ve sonuçta daha kötü çözümlere yol açar.


1

Alecos'un söylediklerine eklemek için, ki bu çok iyi, Bayesian istatistiklerini veya düzenlemeyi kullanırken verilerinizi sıfırlamak çok önemlidir, aksi takdirde veriler kesişme ile ilişkilendirilebilir, bu da normalleştirmeyi genellikle istediğinizi yapmaz.

Verileri sıfır ortalama yapmak kovaryans matrisinin birçok köşegen dışı terimini azaltabilir, bu nedenle verileri daha kolay yorumlanabilir ve katsayıları daha doğrudan anlamlı hale getirir, çünkü her katsayı bu faktöre daha fazla uygular ve ile korelasyon yoluyla daha az hareket eder diğer faktörler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.