Birden fazla ortaya çıkan çizgiyle bir dağılım grafiğini nasıl tartışabiliriz?

İki değişkeni ölçtük ve dağılım grafiği birden çok "doğrusal" model öneriyor gibi görünüyor. Bu modelleri damıtmaya çalışmanın bir yolu var mı? Diğer bağımsız değişkenleri tanımlamanın zor olduğu ortaya çıktı.

İki değişkenin dağılım grafiği

Her iki değişken de büyük oranda sola eğiktir (küçük sayılara doğru), bu alanımızda beklenen bir dağılımdır. Noktanın yoğunluğu bu daki veri noktalarının miktarını ( ölçeğinde) temsil eder . $\log_{10}$ $<x,y>$

Alternatif olarak, noktaları kümelemenin bir yolu var mı?

Alanımızda bu iki değişkenin doğrusal olarak korele olduğu iddia edilmektedir. Verilerimizde durumun neden böyle olmadığını anlamaya / açıklamaya çalışıyoruz.

(17M veri noktalarımız var)

güncelleme: tüm cevaplar için teşekkür ederim, burada bazı talep edilen açıklamalar var:

Her iki değişken de yalnızca tamsayıdır; bu, günlük dağılım grafiğindeki bazı desenleri açıklar.
Neyse ki, tanım olarak her iki değişkenin minimum değeri 1'dir.
7M puanları dedır (verinin sol eğriliği ile "açıklanmıştır") $<3,1>$

İstenen grafikler aşağıdadır:

log-log dağılım grafiği: Günlük günlüğünde dağılım grafiği

(boşluklar tamsayı değerlerinden kaynaklanır)

log-log polar: kutupsal koordinatlar $\theta = y$

Oranın histogramı: Oran histogramı

çubuğu 7M noktası olduğundan ve diğer çubukları gizleyeceğinden frekans bir günlük ölçeğindedir . $1/3$

linear-model scatterplot

— Davy Landman
kaynak

Bu grafik kutupsal koordinatlarda nasıl görünüyor ? (Önce ve logaritmalarının alınması tavsiye edilebilir (artı, gerekirse sıfırlardan kaçınmak için küçük bir başlangıç ofseti).) Tüm satırlar başlangıç noktasından yayılıyor gibi göründüğünden, özellikle - eğer varyasyonu çizgilerin etrafında homoscedastic görünüyor - o zaman tek yapmanız gereken boyutundaki noktaları kümelemek .

(r, θ)

$(r,\theta)$

X

$X$

Y

$Y$

θ

$\theta$

θ

$\theta$

— whuber

Y ve X elde etmekle ilgili oranlar var mı? Yalnızca ayrık değerleri alan değişkenler söz konusu mu? Log-log grafiği nasıl görünür?

— Glen_b -Manica Monica

@whuber & Glen_b Bu dönüşümleri içeren grafikler ekledim.

— Davy Landman

Teşekkürler Davy. Kutup koordinatları kullanarak alanına daha açık olması gereken: çizilerek bir ilgili yatay eksen ve bir ilgili dikey eksen, orijinal arsa üzerinde herhangi bir radyal çizgiler mükemmel yatay çizgiler ortaya çıkacaktır. Sadece görsel olarak kolayca tespit edilemez (gözlerimiz yatay doğrusal özellikleri tanımak için yerleşik işleme sahiptir), bir kez tespit edildiğinde, sadece dayalı bir küme analizi ile işlenebilirler . "Log-log polar" grafiğiniz, koordinatlara (özellikle ) doğrusal olmayan dönüşümler uygulayarak bu güzel özellikleri yok eder.

r

$r$

θ

$\theta$

θ

$\theta$

θ

$\theta$

— whuber

@whuber Grafiği güncelledim, tetayı y'ye koydum, bu demek istediğin çizgiler mi?

— Davy Landman

Yanıtlar:

$Y$ $X$ $Y/X$

$X/k$ $kX$ $k$

$Y = 0$ $\log(Y + \text{constant})$

Bir terminoloji noktası: istatistiklerde çarpıklık, daha gerilmiş kuyruğa atıfta bulunularak açıklanmaktadır. Bu terminolojiyi geriye doğru kabul etmekte özgürsünüz. Burada her iki değişken de yüksek değerlere ya da pozitif ya da sağa eğiktir.

$Y = 1$ $Y = 0$

Daha önce olduğu gibi, onları ayırmak veya ayrı ayrı işlemek için bilimsel bir neden olmadan farklı şeritlerin farklı şekilde modellenmesini tavsiye etmem. Sadece sahip olduklarınızı ortalamanız gerekir. (Bu tür verilerle, gizliliği bastırmak için bilinen yöntemler olabilir. Alanınızdaki insanlar her bir arsa için rutin olarak milyonlarca noktayı ölçüyorsa, bunun daha önce görülmediğine inanmak zor.)

Korelasyon kesinlikle pozitif olmalıdır. Dakika korelasyonları bu örnek büyüklüğü ile önemli olarak nitelendirileceği için burada tamamen işe yaramayacak olan resmi önemlilik testinin yanı sıra, güçlü olarak ilan edilip edilmemesi, alanınızdaki beklentiler ve standartlar meselesidir. Korelasyonunuzu niceliksel olarak başkalarının sonuçlarıyla karşılaştırmanız bir yoludur.

Detay: Çarpıklık, istatistiksel kurala göre hala yanlış bir şekilde tanımlanmaktadır. Bu değişkenler sağa eğiktir; bu jargon yatay büyüklük eksenine sahip bir histograma bakarken ve eğriliğin daha fazla değere sahip konsantrasyona değil, daha uzun kuyruk için adlandırıldığına dikkat çeker.

— Nick Cox
kaynak

Log-log grafiğini ekledim ve çarpıklık konusunda daha hassas olmaya çalıştım.

— Davy Landman

\begin{aligned} Y_{i} & = α_{1} + β_{1} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_1 + \beta_1X_i + \epsilon_i \end{align}$

m^{t h}

$m^{th}$

\begin{aligned} Y_{i} & = α_{m} + β_{m} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_m + \beta_mX_i + \epsilon_i \end{align}$

M

$M$

m^{t h}

$m^{th}$

p_{m}

$p_m$

\sum_{m} p_{m} = 1

$\sum_m p_m =1$

$\epsilon$ $N(0,\sigma^2)$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} p_{m} \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M p_m\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

ϕ

$\phi$

3 M + 1

$3M+1$

\sum_{m} p_{m} = 1, p_{m} \geq 0

$\sum_m p_m=1,\; p_m\ge0$

α

$\alpha$

β

$\beta$

p_{m}

$p_m$

\frac{1}{M}

$\frac{1}{M}$

α

$\alpha$

β

$\beta$

$Z_i$ $p_m$ $p_m$ $Z_i$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} (\frac{e x p (δ_{m} + γ_{m} Z_{i})}{\sum_{m^{'}} e x p (δ_{m^{'}} + γ_{m^{'}} Z_{i})}) \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M \left(\frac{exp(\delta_m+\gamma_mZ_i)}{\sum_{m'} exp(\delta_{m'}+\gamma_{m'}Z_i)}\right)\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

$5M+1$ $5M-1$ $\delta, \gamma$

$M$

— fatura
kaynak

M

$M$

Bazı veri setlerimde de benzer davranışlar gözlemledim. Benim durumumda, birden çok farklı satır, işleme algoritmalarımdan birinde nicemleme hatasından kaynaklandı.

Yani, işlenmiş verilerin dağılım çizimlerine bakıyoruz ve işleme algoritmasının bazı niceleme etkileri vardı, bu da verilerinizde tam olarak yukarıdaki gibi görünüyordu.

Nicemleme etkilerini düzeltmek, çıktımızın daha pürüzsüz ve daha az topaklı görünmesine neden oldu.

"Doğrusal korelasyon" yorumunuza gelince. Sunulanlar, bu verilerin doğrusal olarak ilişkili olup olmadığını belirlemek için yetersizdir. Yani, bazı alanlarda,> 0.7 olan bir korelasyon katsayısı güçlü doğrusal korelasyon olarak kabul edilir. Verilerinizin çoğunun kökenine yakın olduğu düşünüldüğünde, verilerinizin "geleneksel bilgelik" in söylediklerine göre doğrusal olarak ilişkilendirilmesi oldukça akla yatkındır. Korelasyon size bir veri kümesi hakkında çok az şey anlatır.

— John
kaynak