EDIT: Bu soru şişirildiği için bir özet: aynı karma istatistiklere sahip (anlamlı, ortalama, orta derece ve ilişkili dağılımları ve gerileme) farklı anlamlı ve yorumlanabilir veri kümeleri bulmak.
Anscombe dörtlüsü (bkz . Yüksek boyutlu verileri görselleştirme amacı? ), Aynı marjinal ortalama / standart sapma (dört ve dört , ayrı ayrı) ve aynı OLS lineer uyumu ile, dört - veri setinin ünlü bir örneğidir. regresyon ve kalan karelerin toplamı ve korelasyon katsayısı . veri setleri oldukça farklı ise (marjinal ve eklem) -tipi istatistikler, bu şekilde aynıdır.y x y R 2 ℓ 2
EDIT (OP yorumlarından) Küçük veri kümesi boyutunu ayrı bırakmak, bazı yorumlar yapmama izin verin. Set 1, dağıtılmış ses ile standart bir doğrusal (afine, doğru olmak) ilişki olarak görülebilir. Set 2, yüksek dereceli bir uyumun asli olabilecek temiz bir ilişkiyi göstermektedir. Set 3, bir aykırı olan ile net bir doğrusal istatistiksel bağımlılığı göstermektedir. Set 4 daha karmaşıktır: girişimi "tahmin" den başarısızlığa bağlı görünüyor. tasarımı, yetersiz bir değer aralığı, bir niceleme etkisi ( çok fazla ölçülebilir) veya kullanıcı bağımlı ve bağımsız değişkenleri değiştirmiş olan bir histerezis olgusunu ortaya çıkarabilir .x x x
Yani özet özellikleri çok farklı davranışları gizler. Set 2 daha iyi polinom uyumu ile ele alınabilir. dirençli yöntemlerle ( veya benzeri) 3, ayrıca Set 4 ile ayarlayın. Bir başka maliyet fonksiyonları veya tutarsızlık göstergelerinin yerleşip yerleşemeyeceğini veya en azından veri kümesi ayrımcılığını iyileştirip iyileştiremeyeceği merak edilebilir. EDIT (OP yorumlarından): Meraklı Regressions blog yazısı şöyle yazıyor :ℓ 1
Bu arada, Frank Anscombe'ye bu veri kümelerini nasıl bulduğunu asla açıklamadığı söylendi. Özet istatistiklerin tümünü elde etmek ve regresyon sonuçlarını aynı şekilde elde etmenin kolay bir iş olduğunu düşünüyorsanız, bir deneyin!
In Anscombe en dörtlüsünün benzer bir amaç için inşa Veri kümeleri , bazı ilginç veri kümeleri aynı quantile tabanlı histogramlarına ile örneğin verilmiştir. Anlamlı bir ilişki ve karışık istatistik karışımı görmedim.
Benim soru: (görselleştirme tutmak veya trivariate,) orada iki değişkenli olan Anscombe benzeri veri setleri tür, aynı sahip olmanın yanı sıra tipi istatistiklerini :
- Arazileri, ve arasındaki bir ilişki olarak yorumlanabilir , sanki biri ölçümler arasında bir yasa arıyormuş gibi,y
- aynı (daha sağlam) marjinal özelliklere (aynı medyan ve mutlak sapma medyanı),
- aynı sınırlama kutularına sahipler: aynı min, maks (ve dolayısıyla - orta aralık ve orta açıklık istatistikleri).
Bu tür veri setleri , her değişken için aynı "kutu ve çırpma teli" arsa özetlerine (min, maks, ortanca, medyan mutlak sapma / MAD, ortalama ve standart) sahip olacak ve yorumlamada yine oldukça farklı olacaktır.
En az mutlak regresyon veri kümeleri için aynı olsaydı daha ilginç olurdu (ama belki de zaten çok fazla soruyorum). Sağlam ve sağlam gerilemeden bahseden bir uyarı görevi görebilir ve Richard Hamming'in sözünü aklından çıkarmaya yardımcı olabilir:
Hesaplamanın amacı içgörüdür, sayı değil
EDIT (OP yorumlarından) Benzer İstatistikleri Ama Benzer Grafiklere Sahip Veri Yaratma, Benzer Grafikler , Sangit Chatterjee ve Aykut Firata, Amerikan İstatistiği, 2007 veya Klonlama verileri: Aynı çoklu doğrusal regresyon uygun veri kümeleri oluşturma, J. Aust. N.-Z. Stat. J. 2009.
Chatterjee (2007) 'de amaç, farklı "tutarsızlık / farklılık" amaç fonksiyonlarını en üst düzeye çıkarırken aynı veri setiyle ve ilk veri setinden standart sapmalarla yeni çiftler üretmektir . Bu fonksiyonlar dışbükey olmayan veya farklılaşamayan olduklarından, genetik algoritmalar (GA) kullanırlar. Önemli adımlar orto-normalizasyonda oluşur; bu, ortalama ve (birim) varyansın korunmasına çok uygundur. Kağıdın rakamları (kağıdın içeriğinin yarısı) giriş ve GA çıkış verilerini üst üste getirir. Bence GA çıktıları orijinal sezgisel yorumlamanın çoğunu kaybediyor.
Ve teknik olarak, ne ortanca ne de orta kademe korunur ve makale, , ve istatistiklerini koruyacak renormalizasyon prosedürlerinden bahsetmez .ℓ 1 ℓ ∞