Benim de belirtildiği gibi açıklama , gerçek bir cevap formüle edilmesi için, söz konusu yeterince detay yok. Doğru terimleri bulmak ve sorunuzu formüle etmek için bile yardıma ihtiyacınız olduğundan, genel olarak kısaca konuşabilirim.
Aradığınız terim veri temizliğidir . Bu ham, kötü biçimlendirilmiş (kirli) verileri alma ve analizler için şekillendirme işlemidir. Biçimleri değiştirme ve düzenleme ("iki" ) ve satır ve sütunları yeniden düzenleme tipik veri temizleme görevleridir. →2
Bir anlamda, veri temizleme herhangi bir yazılımda yapılabilir ve Excel veya R ile yapılabilir. Her iki seçeneğin artıları ve eksileri olacaktır:
- Excel: Excel neredeyse kesinlikle veri temizliği için en yaygın seçimdir (bkz. R fortunes # 59 pdf ). Ayrıca istatistikçiler tarafından kötü bir seçim olarak kabul edilir. Birincil neden, her şeyi yakaladığınızdan veya her şeye aynı şekilde davrandığınızdan emin olmanın zor olmasıdır ve yaptığınız değişikliklerin kaydı yoktur, bu nedenle bu değişiklikleri daha sonra tekrar ziyaret edemezsiniz. Excel'i kullanmanın tersi, ne yaptığınızı görmenin daha kolay olacağı ve değişiklik yapmak için çok fazla şey bilmeniz gerekmemesidir. (İstatistikçiler ikincisini ek bir con olarak değerlendireceklerdir .)
R: R dik bir öğrenme eğrisi gerektirecektir. R veya programlamaya çok aşina değilseniz, Excel'de oldukça hızlı ve kolay bir şekilde yapılabilecek şeyler R'de denemek için sinir bozucu olacaktır. Öte yandan, bunu tekrar yapmak zorunda kalırsanız, bu öğrenme iyi geçirilmiş zaman. Ayrıca, R'deki verileri temizlemek için kodunuzu yazma ve kaydetme yeteneği, yukarıda listelenen eksileri hafifletecektir. Aşağıda, R'deki bu görevlere başlamanıza yardımcı olacak bazı bağlantılar verilmiştir:
Stack Overflow hakkında birçok iyi bilgi edinebilirsiniz :
Quick-R ayrıca değerli bir kaynaktır:
Sayıları sayısal moda alma:
R hakkında bilgi edinmek için bir başka paha biçilmez kaynak, UCLA'nın istatistik yardım web sitesidir :
Son olarak, iyi eski Google ile her zaman birçok bilgi bulabilirsiniz:
Güncelleme: Bu, 'çalışma birimi' başına birden fazla ölçüm yaptığınızda (sizin durumunuzda, bir kişi) veri kümenizin yapısıyla ilgili yaygın bir sorundur. Her kişi için bir satırınız varsa, verilerinizin 'geniş' formda olduğu söylenir, ancak yanıt değişkeniniz için mutlaka birden çok sütununuz olacaktır. Öte yandan, yanıt değişkeniniz için yalnızca bir sütununuz olabilir (ancak sonuç olarak kişi başına birden fazla satırınız olabilir), bu durumda verilerinizin 'uzun' formda olduğu söylenir. Bu iki biçim arasında geçişe genellikle verilerinizi özellikle R dünyasında 'yeniden şekillendirme' denir.
- Bunun için standart R fonksiyonu ? Yeniden şekillendirmedir . Bir yoktur rehber kullanmaya
reshape()
UCLA istatistiklerini yardım web sitesinde.
- Birçok insan
reshape
çalışmak zor. Hadley Wickham , süreci basitleştirmeyi amaçlayan reshape2 adlı bir pakete katkıda bulundu . Hadley'nin reshape2 için kişisel web sitesi burada , Quick-R'ye genel bakış burada ve hoş görünümlü bir eğitim var .
- Verilerin nasıl yeniden şekillendirileceği hakkında SO hakkında çok fazla soru var. Çoğu genişten uzağa gitmekle ilgilidir, çünkü tipik olarak veri analistlerinin karşılaştığı budur. Sorunuz, çok daha az yaygın olan uzuntan genişliğe gitmektir, ancak bununla ilgili hala çok sayıda konu var, bu arama ile bunlara bakabilirsiniz .
- Kalbiniz bunu Excel ile yapmaya çalışacak şekilde ayarlanmışsa, Excel'in yeniden şekillendirme işlevini burada çoğaltması için bir VBA makrosu yazmayla ilgili bir iş parçacığı vardır: VBA kullanarak Excel'de erime / yeniden şekillendirme ?
data.table
,dplyr
,plyr
, vereshape2
- eğer mümkünse ben Excel ve pivot tablolar kaçınarak öneriyoruz.