Normalizasyon ve Standardizasyon arasındaki fark nedir?


118

İşyerinde bunu, patronum normalleşmeyi hiç duymadığı için tartışıyorduk. Lineer Cebir'de Normalizasyon, bir vektörün boyuna bölünmesini ifade eder. Ve istatistiklerde, Standardizasyon bir ortalamanın çıkarılmasını ve ardından SD'ye bölünmesini ifade ediyor gibi görünmektedir. Ancak, diğer olasılıklarla da birbirleriyle değiştirilebilir gibi görünüyorlar.

Bir çeşit evrensel puan oluştururken , bu, farklı araçlara ve farklı SD'lere sahip farklı ölçümü oluşturan, Normalize eder, Standartlaştırır mı yoksa başka bir şey mi yaparsınız? Biri bana bunun sadece her metriği almanın ve onları SD'lerine ayrı ayrı bölmesinin bir sorun olduğunu söyledi. Sonra ikisini topla. Bu, her iki ölçümü de değerlendirmek için kullanılabilecek evrensel bir puanla sonuçlanacaktır.2

Örneğin, metroya işe giden kişi sayısı (NYC'de) ve çalışmaya gidenlerin sayısı (NYC'de) olduğunu varsayalım.

Trainx
Cary

Trafik dalgalanmalarını hızlı bir şekilde rapor etmek için evrensel bir puan oluşturmak istiyorsanız, sadece ve ekleyemezsiniz, çünkü trene binen LOT daha fazla insan olacaktır. NYC'de yaşayan 8 milyon insan ve turistler var. Hergün milyonlarca insan treni kullanıyor, arabalarda yüzbinlerce insan. Bu yüzden karşılaştırılmak için benzer bir ölçeğe dönüştürülmeleri gerekir.mean(x)mean(y)

Eğermean(x)=8,000,000

vemean(y)=800,000

& sonra normalleştirir misiniz ? & sonra toplamayı standartlaştırır mısınız? Yoksa her birini kendi SD’lerine böler, sonra da toplar mı? Dalgalandığında, toplam trafik dalgalanmalarını temsil eden bir sayıya ulaşmak için.xyxy

Herhangi bir makale veya referans için kitap bölümleri çok takdir edilecektir. TEŞEKKÜRLER!

Ayrıca burada yapmaya çalışıyorum başka bir örnek.

Bir üniversite dekanı olduğunuzu ve kabul koşullarını tartıştığınızı hayal edin. En azından belirli bir not ortalaması ve belli bir test puanı olan öğrenciler isteyebilirsiniz. İkisi de aynı ölçekte olsaydı iyi olurdu çünkü o zaman ikisini bir araya getirebilir ve “en azından 7.0 olan herkes kabul edilebilir” diyebilirdiniz. Bu şekilde, eğer aday bir öğrencinin 4.0 not ortalaması varsa, 3.0 test puanı kadar düşük olabilir ve hala kabul edilebilir. Tersine, eğer bir kişi 3.0 not ortalaması varsa, 4.0 test puanıyla kabul edilebilir.

Ama öyle değil. ACT 36 puanlık bir ölçekte ve çoğu not ortalaması 4.0'da (bazıları 4.3, evet can sıkıcı). Bir çeşit evrensel puan almak için sadece bir ACT ve GPA ekleyemediğim için, eklenmesi için onları nasıl dönüştürebilirim, böylece evrensel bir kabul puanı oluşturabilirim. Ve sonra bir Dekan olarak, belirli bir eşiğin üstünde bir puanı olan birini otomatik olarak kabul edebilirdim. Hatta puanları% 95'in üzerinde olan herkesi otomatik olarak kabul eder .... bu tür şeyler.

Bu normalleşme olur mu? standardizasyon? ya da sadece her birini kendi SD'sine bölerek sonra toplayın.


4
Sorunun son kısmı , birden çok özellikten bir değer oluşturmaya çalıştığınız gibi görünüyor . Daha fazla bilgi için soruyu ve cevaplarını göreceksiniz . İstatistik.stackexchange.com / q/9137 Özellikle, ne normalizasyon ne de standardizasyonun Dean'in problemiyle doğrudan bir ilgisi olmadığını unutmayın.
whuber

Yanıtlar:


65

Normalleştirme, değerleri [0,1] aralığına yeniden ölçeklendirir. Bu, tüm parametrelerin aynı pozitif skalaya sahip olması gereken bazı durumlarda yararlı olabilir. Ancak, veri kümesinden aykırı değerler kaybolur.

Xchanged=XXminXmaxXmin

Standardizasyon, ortalama ( ) 0 ve standart sapma ( ) 1 (birim varyans) olacak şekilde verileri yeniden ölçeklendirir .σμσ

Xchanged=Xμσ

Çoğu uygulama için standardizasyon önerilir.


7
Verilerin normalleşmesi üzerine neden "veri setindeki aykırı değerlerin kaybolduğunu" açıklayabilir misiniz?
öğrenici,

3
Bu yeniden ölçekleme durumunda aykırı değerler sonucu etkiler ve kaybolmazlar.
Feras

@lnerner [1 2 3 4 5 1000 2 4 5 2000 ...] olup olmadığını hayal edin. 1000 veri noktasının normalize edilmiş değeri daha küçük olacaktır, çünkü 2000
COLD ICE

3
@ COLDICE Kullandığınız normalizasyon algoritmasına bağlı olduğunu düşünüyorum. Örneğin, veri kümenizdeki her sayıyı maksimum değere (örneğin 2000) bölerseniz, bunlar 0 ile 1 arasındadır ve aykırı değerleri etkilemez.
Alisson,

3
Bunun aykırı noktaları etkilemeyeceğini düşünüyorum, aksi halde bu anomali tespit yazılımlarında yapılamaz.
Alisson,

44

İş dünyasında, "normalizasyon", tipik olarak, değer aralığının "normalize edilmiş, 0.0 ila 1.0" olduğu anlamına gelir. "Standardizasyon" tipik olarak, değerin ortalamasından kaç standart sapma olduğunu ölçmek için değer aralığının "standartlaştırıldığı" anlamına gelir. Ancak, herkes buna katılmazdı. Tanımlarınızı kullanmadan önce açıklamak en iyisidir .

Her durumda, dönüşümünüzün yararlı bir şey sağlaması gerekir.

Tren / araba örneğinizde, her bir değerin ortalamadan kaç standart sapma olduğunu bilmek dışında bir şey kazanır mısınız? Bu "standartlaştırılmış" önlemleri birbirine karşı bir xy grafiği olarak çizerseniz, bir korelasyon görebilirsiniz (sağdaki ilk grafiğe bakın):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Eğer öyleyse, bu size bir şey ifade ediyor mu?

İkinci örneğinize göre, bir not ortalamasını bir ölçekden diğer bir ölçeğe "eşitlemek" istiyorsanız, bu ölçeklerin ortak noktası nedir? Başka bir deyişle, bu minimumları nasıl eşdeğer olacak şekilde ve maksimum değerleri nasıl eşdeğer olacak şekilde dönüştürebilirsiniz?

İşte "normalizasyon" örneği:

Normalleştirme Bağlantısı

GPA ve ACT puanlarınızı değiştirilebilir bir formda aldıktan sonra, ACT ve GPA puanlarını farklı şekilde tartıştırmak mantıklı mıdır? Eğer öyleyse, hangi ağırlık size bir şey ifade ediyor?

Düzenleme 1 (05/03/2011) ====================================================================== =

İlk önce, yukarıda whuber tarafından önerilen bağlantıları gözden geçirirdim . Sonuç olarak, iki değişkenli sorunlarınızın her ikisinde de, bir değişkenle diğeri arasındaki bir "denklik" ile gelmek zorunda kalacaksınız. Ve bir değişkeni diğerinden ayırt etmenin bir yolu. Başka bir deyişle, bunu basit bir doğrusal ilişkiye göre basitleştirebilseniz bile, bir değişkeni diğerinden ayırt etmek için "ağırlıklara" ihtiyacınız olacaktır.

İşte iki değişkenli bir problemin örneği:

Çok Nitelikli Yardımcı Programlar

Son sayfada, standartlaştırılmış tren trafiğine U1(x)karşı standartlaştırılmış araba trafiğinin U2(y)"ek olarak bağımsız" olduğunu söyleyebilirseniz, aşağıdaki gibi basit bir denklemden kurtulabilirsiniz:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

K1 = 0.5 olduğunda, standart araba / tren trafiğine kayıtsızsınız demektir. Daha yüksek bir k1, tren trafiğinin U1(x)daha önemli olduğu anlamına gelir .

Bununla birlikte, eğer bu iki değişken "ek olarak bağımsız" değilse, o zaman daha karmaşık bir denklem kullanmanız gerekir. Sayfa 1'de bir olasılık gösterilmiştir:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

Her iki durumda da, U(x, y)mantıklı bir yardımcı program bulmanız gerekecek .

GPA / ACT probleminiz için aynı genel ağırlıklandırma / karşılaştırma kavramları geçerlidir. "Standartlaştırılmış" yerine "normalleştirilmiş" olsalar bile.

Son bir konu. Bundan hoşlanmayacağınızı biliyorum, ancak "ilave olarak bağımsız" teriminin tanımı aşağıdaki linkin 4. sayfasında. Daha az geeky tanımı aradım, ancak bir tane bulamadım. Daha iyi bir şeyler bulmak için etrafa bakabilirsin.

Katkı bağımsız

Bağlantıdan alıntı:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Bu cevabın tepesinde önerildiği gibi, standartlaştırılmış tren trafiğine karşı standartlaştırılmış araba trafiğine xy arsa üzerinde çizim yaparsanız, bir korelasyon görebilirsiniz. Eğer öyleyse, o zaman yukarıdaki doğrusal olmayan yarar denklemi veya benzeri bir şey ile sıkışmış.


Tamam. Haklısın. Tanımlarımı açıklamak en iyisidir. Ve tekrar düşünürken, ihtiyacım olan tanımlar değil. İhtiyacım olan tek şey 1 evrensel puan oluşturmak için uygun yöntem. Bunun bir Giriş puanı mı yoksa Trafik puanı mı olduğu. Kişi, her ikisini de benzer bir skalaya dönüştürmek için dönüştürülen, diğer değişkenlerin bir işlevi olan evrensel bir ölçüm yaratmaya ne dersiniz? Ve ağırlıklar için endişelenme. Anladığım kadarıyla basit bir toplama bile metrikleri 1/1 ölçüyor. Ama şu an benim için endişe az.
Chris,

@Chris, cevabımı yukarıdaki düzenleme olarak ekledim.
bill_080

2
(+1) İyi düzenleme. @Chris: Burada kısa bir PowerPoint slayt grubunun notları ilginizi çekebilir: teknik olmayan insanlara verdiğim konuyla ilgili bir sunum. Bundan bahsediyorum çünkü “evrensel bir ölçüm oluşturma” konusunda bazı çizimler ve rehberlik var.
whuber

Çok Nitelikli Yardımcı Programlar bağlantısı kesildi
mgilbert

6

Cevap basit, ama hoşuna gitmeyecek. Her iki puandan 1 standart sapmaya eşit olarak değer veriyorsanız, standardizasyonun gideceği yoldur (not: aslında, öğreniyorsunuz , çünkü nüfusun bir tahminini böldünüz).

Olmazsa, standardizasyonun iyi bir ilk adım olması muhtemeldir, bundan sonra puanlardan birine daha iyi bir faktör ile çarparak daha fazla ağırlık verebilirsiniz.


Yani, en azından Standardizasyon olarak tanımladığım (başlangıç), daha sonra veri / senaryoya en iyi uyması için ağırlık ayarlamaya başladığınızı mı söylüyorsunuz? Bu mantıklı. Sadece neden SD tarafından böldüğümü anlamıyorum. Araştırmada Standart Ortalama Farkı denilen bir şey buldum .... ve kafamı karıştırıyordum. Basit olmalı gibi görünüyor. Ya ikisini A Ölçeğine, ya da diğeri ile aynı ölçekte, sonra toplamına koyarsınız. Ama hayır. Bunun yerine kafam karıştı ve şu an için tüm Wiki'ler çıktı.
Chris,

0

GPA / ACT veya tren / araba problemini çözmek için neden Geometric Mean'ı kullanmıyorsunuz ?

n√ (a1 × a2 × ... × an)

a*Dağılımın değeri ve dağılımın ndizini nerededir ?

Bu geometrik ortalama, her değerin ölçeğini belirsiz hale getirmesini, ortalama değere eşit şekilde katkıda bulunmasını sağlar. Geometrik Ortalama'da daha fazlasını gör


3
Geometrik ortalamanın OP'nin tarif ettiği durumlar için uygun olacağını görmüyorum.
gung

1
Gung ile aynı fikirdeyim. Geometrik ortalama bu sorunun bir çözümü değildir.
Ferdi

Geometrik ortalama, daha küçük sayıların katkısının azaltılmasını önleyecektir. Dolayısıyla, eşit olmayan ölçeklerin birleştirilmesi gerektiğinde standardizasyon veya normalleşmeye alternatif olabilir.
rnso

0

Benim alanımda, veri bilimi, normalizasyon, aşağı akım verilerinin kolay karşılaştırılmasını sağlayan bir veri dönüşümüdür. Pek çok normalleştirme türü vardır. Ölçekleme onlardan biri olmak. Ayrıca verileri kaydedebilir veya istediğiniz başka bir şey yapabilirsiniz. Kullandığınız normalleştirme türü, istediğiniz tüm sonuçlara bağlı olacaktır, çünkü tüm normallemeler verileri başka bir şeye dönüştürür.

İşte normalleştirme örnekleri olarak düşündüklerimden bazıları. Ölçeklendirme normalleşmeleri Kantil normalleşmesi

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.