Verilerdeki yeni bilgileri keşfetme yönergeleri


9

Kendime veya başka birine bir şey ifade etmek için bir şey çiziyorum. Genellikle, bir soru bu süreci başlatır ve genellikle belirli bir cevap için umut isteyen kişi.

Verilerle ilgili ilginç şeyleri daha az taraflı bir şekilde nasıl öğrenebilirim?

Şu anda bu yöntemi kabaca takip ediyorum:

  1. Özet istatistikler.
  2. Şerit grafiği.
  3. Dağılım grafiği.
  4. Belki ilginç bir veri alt kümesiyle tekrarlayın.

Ancak bu yeterince metodik veya bilimsel görünmüyor.

Sormayı düşünmediğim verilerle ilgili şeyleri ortaya koyan izlenmesi gereken yönergeler veya prosedürler var mı? Yeterli bir analiz yaptığımı nasıl anlayabilirim?

Yanıtlar:


6

John W. Tukey'nin keşifsel veri analizinin (EDA) bir alanı ve bu konuda Keşif Veri Analizi adlı mükemmel bir kitap var .

Grafikler kullanmanız hoşuma gidiyor - verilerinize bağlı olarak yararlı olabilecek başka birçok grafik var - kaç değişken? Değişkenler nelerdir (Kategorik? Sayısal? Sürekli? Sayımlar? Sıradan?)

Çok değişkenli veriler için genellikle yararlı olan bir grafik, dağılım grafiği matrisidir.

Genellikle ilginç noktalar olan çeşitli aykırı değerlere bakabilirsiniz.

Ancak tüm bu sürecin gerçekten metodik ve bilimsel yapılabileceğini düşünmüyorum - keşif, metodik ve bilimsel yaklaşımlar getirilmeden ÖNCE gelen şeydir.


(+1) Bahsedilen kitaba bağlantı verebilir misiniz?
steffen

Mühendislik ve İstatistik El Kitabından EDA itl.nist.gov/div898/handbook/eda/eda.htm .
Selden

@Peter Flom 13 değişkenleri, iki girdi seti üzerinde çalışan bir program tarafından üretilen iki çıktı seti karşılaştırılarak üretilir. Program periyodik olarak çalışır. Değişkenler sıralı, kategori, kategori, kategori, kategori, sayım, sayım, sayım, sayım, sayısal, sayısal, sayım ve sayımdır. İsimler id, machineA, inputA, machineB, inputB, yeni, aynı, eksik, newP, eksikP, lengthA, lengthB, scoreA, scoreB'dir. Ama sadece en son çıktıyı karşılaştırma kararı benim iyi / kötü fikrim.
Selden

Kitap aslında Exploratory Data Analysis (EDA değil) olarak adlandırılıyor (John W. Tukey) (hafızamın kapağı beni çevirdi çünkü beni kandırdı) Link: amazon.com/Exploratory fotoğrafları-
Peter

@selden ID muhtemelen faydalı bir değişken değil. İki kategorik değişken arasında mozaik grafiklere bakabilirsiniz; bir kategorik ve sayısal, paralel kutu grafikleri arasında iyi olabilir.
Peter Flom

1

Eğer zaman serisi verileri kronolojik verileriniz varsa o zaman "bilenler" vardır ve keşfedilmeyi bekleyen "bilinmeyenler" dir. Örneğin, 10 dönem boyunca 1,9,1,9,1,5,1,9,1,9 gibi bir dizi veri noktanız varsa, bu örneğe dayanarak 1,9,1,9 , ... gelecekte ortaya çıkacak. Veri analizinin ortaya koyduğu şey, DGF'nin tutmadığını gösteren + -3 sigma sınırları dahilinde olmasına rağmen, 6. dönemde "olağandışı" bir okuma olduğudur. Inlier / Outlier öğesinin maskesini kaldırmamız verilerle ilgili şeyleri ortaya çıkarmamıza olanak tanır. Ortalama Değerin Beklenen Değer olmadığını da not ediyoruz. Bu fikir, veriler analiz edilmeden önce bilinmeyen Ortalama Değişimleri ve / veya Yerel Zaman Eğilimlerini tespit etmeye kolayca uzanır (Hipotez Üretimi). Şimdi gelecek 10 değerin de 1,9,1,9 olması mümkündür, 1,5,1,9,1,9 "5" in her zaman tedirgin olmadığını ileri sürmektedir. Kanıtlanabilir sabit olmayan varyans sergileyen uygun bir modelden bir hata süreci gözlemlersek, aşağıdaki doğa durumlarından birini ortaya çıkarabiliriz: 1) parametreler belirli bir zamanda değişmiş olabilir; 2. Ağırlıklı Analiz'e (GLS) ihtiyaç olabilir; 3. Verilerin bir güç dönüşümü yoluyla dönüştürülmesi gerekebilir; 4. Hataların varyansını modellemek gerekebilir. Günlük verileriniz varsa, iyi analizler her Tatil çevresinde tutarlı / öngörülebilir davranışları yansıtan bir yanıt penceresi (kurşun, çağdaş ve gecikme yapısı) olduğunu ortaya çıkarabilir. Ayın belirli günlerinin önemli bir etkisi olduğunu veya bir Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliği olduğunu da ortaya koyabilirsiniz. 9 "5" in her zaman tedirgin olmadığını ileri sürmektedir. Kanıtlanabilir sabit olmayan varyans sergileyen uygun bir modelden bir hata süreci gözlemlersek, aşağıdaki doğa durumlarından birini ortaya çıkarabiliriz: 1) parametreler belirli bir zamanda değişmiş olabilir; 2. Ağırlıklı Analiz'e (GLS) ihtiyaç olabilir; 3. Verilerin bir güç dönüşümü yoluyla dönüştürülmesi gerekebilir; 4. Hataların varyansını modellemek gerekebilir. Günlük verileriniz varsa, iyi analizler her Tatil çevresinde tutarlı / öngörülebilir davranışları yansıtan bir yanıt penceresi (kurşun, çağdaş ve gecikme yapısı) olduğunu ortaya çıkarabilir. Ayın belirli günlerinin önemli bir etkiye sahip olduğunu veya Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliğe sahip olduğunu da ortaya koyabilirsiniz. 9 "5" in her zaman tedirgin olmadığını ileri sürmektedir. Kanıtlanabilir sabit olmayan varyans sergileyen uygun bir modelden bir hata süreci gözlemlersek, aşağıdaki doğa durumlarından birini ortaya çıkarabiliriz: 1) parametreler belirli bir zamanda değişmiş olabilir; 2. Ağırlıklı Analiz'e (GLS) ihtiyaç olabilir; 3. Verilerin bir güç dönüşümü yoluyla dönüştürülmesi gerekebilir; 4. Hataların varyansını modellemek gerekebilir. Günlük verileriniz varsa, iyi analizler her Tatil çevresinde tutarlı / öngörülebilir davranışları yansıtan bir yanıt penceresi (kurşun, çağdaş ve gecikme yapısı) olduğunu ortaya çıkarabilir. Ayın belirli günlerinin önemli bir etkiye sahip olduğunu veya Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliğe sahip olduğunu da ortaya koyabilirsiniz. illa ki her zaman tedirgin değildir. Kanıtlanabilir sabit olmayan varyans sergileyen uygun bir modelden bir hata süreci gözlemlersek, aşağıdaki doğa durumlarından birini ortaya çıkarabiliriz: 1) parametreler belirli bir zamanda değişmiş olabilir; 2. Ağırlıklı Analiz'e (GLS) ihtiyaç olabilir; 3. Verilerin bir güç dönüşümü yoluyla dönüştürülmesi gerekebilir; 4. Hataların varyansını modellemek gerekebilir. Günlük verileriniz varsa, iyi analizler her Tatil çevresinde tutarlı / öngörülebilir davranışları yansıtan bir yanıt penceresi (kurşun, çağdaş ve gecikme yapısı) olduğunu ortaya çıkarabilir. Ayın belirli günlerinin önemli bir etkiye sahip olduğunu veya Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliğe sahip olduğunu da ortaya koyabilirsiniz. illa ki her zaman tedirgin değildir. Kanıtlanabilir sabit olmayan varyans sergileyen uygun bir modelden bir hata süreci gözlemlersek, aşağıdaki doğa durumlarından birini ortaya çıkarabiliriz: 1) parametreler belirli bir zamanda değişmiş olabilir; 2. Ağırlıklı Analiz'e (GLS) ihtiyaç olabilir; 3. Verilerin bir güç dönüşümü yoluyla dönüştürülmesi gerekebilir; 4. Hataların varyansını modellemek gerekebilir. Günlük verileriniz varsa, iyi analizler her Tatil çevresinde tutarlı / öngörülebilir davranışları yansıtan bir yanıt penceresi (kurşun, çağdaş ve gecikme yapısı) olduğunu ortaya çıkarabilir. Ayın belirli günlerinin önemli bir etkiye sahip olduğunu veya Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliğe sahip olduğunu da ortaya koyabilirsiniz. Kanıtlanabilir sabit olmayan varyans sergileyen uygun bir modelden bir hata süreci gözlemlersek, aşağıdaki doğa durumlarından birini ortaya çıkarabiliriz: 1) parametreler belirli bir zamanda değişmiş olabilir; 2. Ağırlıklı Analiz'e (GLS) ihtiyaç olabilir; 3. Verilerin bir güç dönüşümü yoluyla dönüştürülmesi gerekebilir; 4. Hataların varyansını modellemek gerekebilir. Günlük verileriniz varsa, iyi analizler her Tatil çevresinde tutarlı / öngörülebilir davranışları yansıtan bir yanıt penceresi (kurşun, çağdaş ve gecikme yapısı) olduğunu ortaya çıkarabilir. Ayın belirli günlerinin önemli bir etkiye sahip olduğunu veya Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliğe sahip olduğunu da ortaya koyabilirsiniz. Kanıtlanabilir sabit olmayan varyans sergileyen uygun bir modelden bir hata süreci gözlemlersek, aşağıdaki doğa durumlarından birini ortaya çıkarabiliriz: 1) parametreler belirli bir zamanda değişmiş olabilir; 2. Ağırlıklı Analiz'e (GLS) ihtiyaç olabilir; 3. Verilerin bir güç dönüşümü yoluyla dönüştürülmesi gerekebilir; 4. Hataların varyansını modellemek gerekebilir. Günlük verileriniz varsa, iyi analizler her Tatil çevresinde tutarlı / öngörülebilir davranışları yansıtan bir yanıt penceresi (kurşun, çağdaş ve gecikme yapısı) olduğunu ortaya çıkarabilir. Ayın belirli günlerinin önemli bir etkiye sahip olduğunu veya Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliğe sahip olduğunu da ortaya koyabilirsiniz. Ağırlıklı Analiz'e (GLS) ihtiyaç olabilir; 3. Verilerin bir güç dönüşümü yoluyla dönüştürülmesi gerekebilir; 4. Hataların varyansının fiilen modellenmesi gerekebilir. Günlük verileriniz varsa, iyi analizler her Tatil çevresinde tutarlı / öngörülebilir davranışları yansıtan bir yanıt penceresi (kurşun, çağdaş ve gecikme yapısı) olduğunu ortaya çıkarabilir. Ayın belirli günlerinin önemli bir etkiye sahip olduğunu veya Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliğe sahip olduğunu da ortaya koyabilirsiniz. Ağırlıklı Analiz'e (GLS) ihtiyaç olabilir; 3. Verilerin bir güç dönüşümü yoluyla dönüştürülmesi gerekebilir; 4. Hataların varyansının fiilen modellenmesi gerekebilir. Günlük verileriniz varsa, iyi analizler her Tatil çevresinde tutarlı / öngörülebilir davranışları yansıtan bir yanıt penceresi (kurşun, çağdaş ve gecikme yapısı) olduğunu ortaya çıkarabilir. Ayın belirli günlerinin önemli bir etkiye sahip olduğunu veya Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliğe sahip olduğunu da ortaya koyabilirsiniz. çağdaş ve gecikmeli yapı) her Tatil çevresinde tutarlı / öngörülebilir davranışı yansıtır. Ayın belirli günlerinin önemli bir etkiye sahip olduğunu veya Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliğe sahip olduğunu da ortaya koyabilirsiniz. çağdaş ve gecikmeli yapı) her Tatil çevresinde tutarlı / öngörülebilir davranışı yansıtır. Ayın belirli günlerinin önemli bir etkiye sahip olduğunu veya Pazartesi tatilinden önceki Cuma günlerinin olağanüstü bir etkinliğe sahip olduğunu da ortaya koyabilirsiniz.


0

Veri madenciliği iki kategoriye ayrılabilir. Bir veri kümesinin / değişkenlerin belirli bir değişken üzerindeki etkisini ölçmekle ilgileniyorsanız, bu denetimli öğrenme olarak kabul edilir. Hedefsiz derin ve keşifsel öğrenme için denetimsiz öğrenim görüyorsunuz.

Verilerin grafiklenmesi ve istatistiksel analizi (dağılımların anlaşılması ve sezginin kazanılması) ilk adımlardır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.