İki değişkeni ölçtük ve dağılım grafiği birden çok "doğrusal" model öneriyor gibi görünüyor. Bu modelleri damıtmaya çalışmanın bir yolu var mı? Diğer bağımsız değişkenleri tanımlamanın zor olduğu ortaya çıktı.
Her iki değişken de büyük oranda sola eğiktir (küçük sayılara doğru), bu alanımızda beklenen bir dağılımdır. Noktanın yoğunluğu bu daki veri noktalarının miktarını ( ölçeğinde) temsil eder .
Alternatif olarak, noktaları kümelemenin bir yolu var mı?
Alanımızda bu iki değişkenin doğrusal olarak korele olduğu iddia edilmektedir. Verilerimizde durumun neden böyle olmadığını anlamaya / açıklamaya çalışıyoruz.
(17M veri noktalarımız var)
güncelleme: tüm cevaplar için teşekkür ederim, burada bazı talep edilen açıklamalar var:
- Her iki değişken de yalnızca tamsayıdır; bu, günlük dağılım grafiğindeki bazı desenleri açıklar.
- Neyse ki, tanım olarak her iki değişkenin minimum değeri 1'dir.
- 7M puanları dedır (verinin sol eğriliği ile "açıklanmıştır")
İstenen grafikler aşağıdadır:
log-log dağılım grafiği:
(boşluklar tamsayı değerlerinden kaynaklanır)
log-log polar:
Oranın histogramı:
çubuğu 7M noktası olduğundan ve diğer çubukları gizleyeceğinden frekans bir günlük ölçeğindedir .