Aynı kutu ve bıyık arsa ile Anscombe benzeri veri setleri (ortalama / std / median / MAD / dak / max)


21

EDIT: Bu soru şişirildiği için bir özet: aynı karma istatistiklere sahip (anlamlı, ortalama, orta derece ve ilişkili dağılımları ve gerileme) farklı anlamlı ve yorumlanabilir veri kümeleri bulmak.

Anscombe dörtlüsü (bkz . Yüksek boyutlu verileri görselleştirme amacı? ), Aynı marjinal ortalama / standart sapma (dört ve dört , ayrı ayrı) ve aynı OLS lineer uyumu ile, dört - veri setinin ünlü bir örneğidir. regresyon ve kalan karelerin toplamı ve korelasyon katsayısı . veri setleri oldukça farklı ise (marjinal ve eklem) -tipi istatistikler, bu şekilde aynıdır.y x y R 2 2xyxyR22

Anscombe'nın dörtlüsü

EDIT (OP yorumlarından) Küçük veri kümesi boyutunu ayrı bırakmak, bazı yorumlar yapmama izin verin. Set 1, dağıtılmış ses ile standart bir doğrusal (afine, doğru olmak) ilişki olarak görülebilir. Set 2, yüksek dereceli bir uyumun asli olabilecek temiz bir ilişkiyi göstermektedir. Set 3, bir aykırı olan ile net bir doğrusal istatistiksel bağımlılığı göstermektedir. Set 4 daha karmaşıktır: girişimi "tahmin" den başarısızlığa bağlı görünüyor. tasarımı, yetersiz bir değer aralığı, bir niceleme etkisi ( çok fazla ölçülebilir) veya kullanıcı bağımlı ve bağımsız değişkenleri değiştirmiş olan bir histerezis olgusunu ortaya çıkarabilir .x x xyxxx

Yani özet özellikleri çok farklı davranışları gizler. Set 2 daha iyi polinom uyumu ile ele alınabilir. dirençli yöntemlerle ( veya benzeri) 3, ayrıca Set 4 ile ayarlayın. Bir başka maliyet fonksiyonları veya tutarsızlık göstergelerinin yerleşip yerleşemeyeceğini veya en azından veri kümesi ayrımcılığını iyileştirip iyileştiremeyeceği merak edilebilir. EDIT (OP yorumlarından): Meraklı Regressions blog yazısı şöyle yazıyor :121

Bu arada, Frank Anscombe'ye bu veri kümelerini nasıl bulduğunu asla açıklamadığı söylendi. Özet istatistiklerin tümünü elde etmek ve regresyon sonuçlarını aynı şekilde elde etmenin kolay bir iş olduğunu düşünüyorsanız, bir deneyin!

In Anscombe en dörtlüsünün benzer bir amaç için inşa Veri kümeleri , bazı ilginç veri kümeleri aynı quantile tabanlı histogramlarına ile örneğin verilmiştir. Anlamlı bir ilişki ve karışık istatistik karışımı görmedim.

Benim soru: (görselleştirme tutmak veya trivariate,) orada iki değişkenli olan Anscombe benzeri veri setleri tür, aynı sahip olmanın yanı sıra tipi istatistiklerini2 :

  • Arazileri, ve arasındaki bir ilişki olarak yorumlanabilir , sanki biri ölçümler arasında bir yasa arıyormuş gibi,yxy
  • aynı (daha sağlam) marjinal özelliklere (aynı medyan ve mutlak sapma medyanı),1
  • aynı sınırlama kutularına sahipler: aynı min, maks (ve dolayısıyla - orta aralık ve orta açıklık istatistikleri).

Bu tür veri setleri , her değişken için aynı "kutu ve çırpma teli" arsa özetlerine (min, maks, ortanca, medyan mutlak sapma / MAD, ortalama ve standart) sahip olacak ve yorumlamada yine oldukça farklı olacaktır.

En az mutlak regresyon veri kümeleri için aynı olsaydı daha ilginç olurdu (ama belki de zaten çok fazla soruyorum). Sağlam ve sağlam gerilemeden bahseden bir uyarı görevi görebilir ve Richard Hamming'in sözünü aklından çıkarmaya yardımcı olabilir:

Hesaplamanın amacı içgörüdür, sayı değil

EDIT (OP yorumlarından) Benzer İstatistikleri Ama Benzer Grafiklere Sahip Veri Yaratma, Benzer Grafikler , Sangit Chatterjee ve Aykut Firata, Amerikan İstatistiği, 2007 veya Klonlama verileri: Aynı çoklu doğrusal regresyon uygun veri kümeleri oluşturma, J. Aust. N.-Z. Stat. J. 2009.

Chatterjee (2007) 'de amaç, farklı "tutarsızlık / farklılık" amaç fonksiyonlarını en üst düzeye çıkarırken aynı veri setiyle ve ilk veri setinden standart sapmalarla yeni çiftler üretmektir . Bu fonksiyonlar dışbükey olmayan veya farklılaşamayan olduklarından, genetik algoritmalar (GA) kullanırlar. Önemli adımlar orto-normalizasyonda oluşur; bu, ortalama ve (birim) varyansın korunmasına çok uygundur. Kağıdın rakamları (kağıdın içeriğinin yarısı) giriş ve GA çıkış verilerini üst üste getirir. Bence GA çıktıları orijinal sezgisel yorumlamanın çoğunu kaybediyor.(x,y)

Ve teknik olarak, ne ortanca ne de orta kademe korunur ve makale, , ve istatistiklerini koruyacak renormalizasyon prosedürlerinden bahsetmez .1 21


3
Eğer aynı kutucuklara sahip tek değişkenli veri setlerinden hemen sonraysanız, bir makalenin geliştirilmesine dayanarak bir süre önce bir soruya bir cevap verdim. Bekle, ben kazarım. (düzenle) ... işte . Aynı özelliklere sahip daha fazla veri seti yapmak çok kolay ... Bunu başka bir cevapta işte burada .
Glen_b -Reinstate Monica

2
Ancak, yansıma, senin de aynı kutudiyagramlar Varyans veri kümeleri sonra olmadığın şimdi varsayalım, ancak bunun yerine kimin İki değişkenli veri setleri aramaya 'ler ve ' her iki kutudiyagramlar aynı kümesine sahip s, ve hangi aynısından en küçük kareler çizgisi - doğru mu? yxy
Glen_b -Reinstate Monica

Kazma bana, özellikle de çarpıklık kısmında faydalı oldu. Yine de, ve arasındaki bağımlılıklarla, daha “doğal” görünümlü iki değişkenli (veya daha fazla) parsellere bakıyorum . Benzer bir "sağlam" uyum bir artı olacaktır. Düzenledim ve umarım soruyu açıklığa kavuşturdumyxy
Laurent Duval

3
Chatterjee & Fırat ( Amerikan İstatistikçi , 2007) , içinde bağlantılı bu cevap için bu soruya , kendi amaçları için basit bir şekilde adapte olmalıdır oldukça genel genetik algoritma sağlar.
S. Kolassa - Monica

1
Grafikler, dağıtım anları göz ardı edildiğinde anlamsız olan popülasyon anlarının örnekleridir. Ortalama, standart sapma, çarpıklık ve diğer popülasyon anları beklenen değerlere, standart sapmalara, çarpıklığa ve bu popülasyonları en iyi açıklayan dağılımların diğer anlarına karşılık gelmez. Yukarıdaki grafikler x değerlerinin ve y değerlerinin dağılımları olarak değerlendirildiğinde, hepsi farklıdır ve bu nedenle farklı dağıtım anlarına sahiptir. Bu daha da kötüsü, belki de asıl mesele, artık yapıyı görmezden gelmek, hiç kimsenin cezasız kalmamasıdır.
Carl

Yanıtlar:


1

Somut olmak gerekirse, her biri için bir ilişki öneren iki veri kümesi oluşturma sorununu düşünüyorum, ancak her birinin ilişkisi farklı ve aynı zamanda yaklaşık olarak aynı:

  • ortalama x
  • ortalama y
  • SD x
  • SD y
  • ortanca x
  • ortanca y
  • en az x
  • minimum y
  • maksimum x
  • maksimum y
  • ortanca medyan mutlak sapma x
  • ortanca medyan mutlak sapma y ortanca
  • basit doğrusal regresyonu katsayıları y ile ilgili x

Belki bu hile yapmaktır, ancak bu sorunu daha kolay hale getirmenin bir yolu, en uygun çizginin x -axis, ve olduğu bir veri kümesi kullanmaktır. . Ardından, açıkça belirgin bir dağılım için düşündürücü bir şey elde etmek için ancak yukarıdaki istatistiklerin korunduğu verileri dikey olarak çevirebiliriz.meany=0miny=maxy

Düşünün, örneğin

x019293949596979891y11201211120121

Bunun gibi yukarı-V şeklinde bir grafiğe sahip:

grafik

ile değiştirirseniz , sadece yaklaşık olarak değil tam olarak aynı istatistiklerle aşağı doğru bir V elde edersiniz.yy


Güzel katkı. Gerçekten de yatay çizgiyi düştüm biraz OLS wrt hilesidir. Çevirme iyi bir fikirdir, ancak veri setleri farklıysa, benzer kalırlar. Ama bence iyi bir fikrin var, belki de "N" şekli ve aynı şekilde "W" şekli bir yolun başlangıcı olabilir
Laurent Duval
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.