Şimdiye kadar verilen tüm cevapların altını çizerim, ama bir kediyi bir kedi olarak adlandıralım: birçok çalışma alanında, “egzotik” yazılım araçlarına (onlara egzotik) yatırım yapmanın gerekli olduğunu, ayarlayabilecek birini işe almanın tek başına gerekli olduğuna ikna etmek imkansızdır. o kadar ve devam et. Bazı müşterilerime yazılım ve veritabanları üzerinde kapsamlı bir geçmişe sahip bir istatistikçiyi işe almaktan büyük fayda sağlayabileceklerini söyledim, ancak “yapamaz” genel bir cevap.
Bu gerçekleşmeyeceği sürece, hayatı kolaylaştıracak Excel ile yapabileceğiniz bazı basit şeyler var. Ve bu ilki şüphesiz sürüm kontrolüdür. Excel ile sürüm kontrolü hakkında daha fazla bilgiyi burada bulabilirsiniz .
Excel kullanımı hakkında bazı şeyler
EXCEL'i kullanan kişiler, EXCEL'in formül özelliklerini çok sık sever. Yine de bu, EXCEL sayfalarındaki en önemli hata kaynağı ve deneyimlerime göre EXCEL dosyalarında okumaya çalışırken yaşanan sorunların kaynağı. Formül içeren sayfalarla çalışmayı reddediyorum.
Ayrıca birlikte çalıştığım herkesi EXCEL sayfalarını düz bir biçimde yayınlamaya zorluyorum, yani:
- İlk satır farklı değişkenlerin isimlerini içerir.
- Elektronik tablo A1 hücresinde başlar.
- Tüm veriler kesintisiz ve biçimlendirmeden sütunlara yerleştirilir.
- Mümkünse, veriler de .csv formatında kaydedilir. Verileri ayıklamak, yeniden biçimlendirmek ve bir .csv dosyasına koymak için bir VBA komut dosyası yazmak zor değildir. Bu aynı zamanda her gün bir .csv veri dökümü yapabildiğiniz için daha iyi sürüm kontrolü sağlar.
Verilerin her zaman sahip olduğu genel bir yapı varsa, veri eklemek ve analiz için veri kümesini oluşturmak için altta yatan VB makrolarını içeren bir şablon geliştirmek iyi olabilir. Bu genel olarak, her çalışanın kendi "dahi" veri depolama sistemiyle gelmesini önler ve kodunuzu bu fonksiyona yazmanıza izin verir.
Bu, eğer herkesi SQL kullanmaya ikna edebilirseniz (ve veri girişi için bir ön uç), R'yi doğrudan buna bağlayabilirsiniz. Bu, performansı büyük ölçüde artıracaktır.
Veri yapısı ve yönetimi
Genel bir kural olarak, veritabanlarında (veya ısrar ediyorlarsa EXCEL sayfaları) depolanan verilerin mutlak asgari düzeyde olması gerekir; bu, diğer bazı değişkenlerden hesaplanabilecek herhangi bir değişkenin veritabanında bulunmaması gerektiği anlamına gelir. Bazen hesaplamalar sıkıcı ve uzun zaman alıyorsa, türetilmiş veya dönüştürülmüş değişkenleri de saklamanın faydalı olabileceğini unutmayın. Ancak, bunlar aslına bağlı olarak gerekirse ayrı bir veritabanında saklanmalıdır.
Düşünce, bir vaka (ve dolayısıyla bir satır) olarak kabul edilenlere de verilmelidir. Örnek olarak, insanlar her zaman noktası için yeni bir değişken yaparak zaman serileri üretme eğilimindedir. Bu bir EXCEL'de mantıklı olsa da, bu verileri okumak, veri matrisinin etrafında bir miktar ters çevirmeyi gerektirir. Grupları karşılaştırmak için aynı: Her grup için bir cevap değişkeni değil, bir grup göstergesi ve bir yanıt değişkeni olmalıdır. Bu şekilde veri yapıları da standartlaştırılabilir.
Sıklıkla karşılaştığım son şey, farklı ölçümlerin kullanılmasıdır. Uzunluklar, metre cinsinden veya santimetre cinsinden, Celcius, Kelvin veya Farenheit'teki sıcaklıklarda verilmektedir.
Tüm bunlardan sonra bile, analize başlamadan önce hala bir veri kontrolü adımına sahip olmak istiyorsunuz. Yine, bu, yeni girişlerde günlük olarak çalışan (örneğin bir gecede) çalışan herhangi bir komut dosyası olabilir ve sorunları derhal işaretler (aralık dışı, yanlış tür, eksik alanlar, ...), böylece olabildiğince hızlı bir şekilde düzeltilebilirler. Neyin yanlış olduğunu ve neden olduğunu bulmak için 2 ay önce yapılan bir girişe geri dönmeniz gerekiyorsa, düzeltmek için iyi bir "Sherlock becerileri" edinmelisiniz.
benim 2 kuruş