“Modern” istatistikler için kurallar


85

G van Belle'nin İstatistiksel Kurallar Kuralları kitabını ve daha az ölçüde , Phillip I Good ve James W. Hardin'den İstatistiklerde (ve Onlardan Nasıl Kaçınmalı) Sıkça Hatalar kitabını seviyorum . Deneysel ve gözlemsel çalışmalardan elde edilen sonuçları yorumlarken genel tuzaklara değiniyor ve istatistiksel çıkarım ya da keşifsel veri analizi için pratik öneriler sunuyorlar. Ancak, “modern” kuralların, özellikle çeşitli alanlarda hesaplamalı ve güçlü istatistiklerin giderek artan kullanımı ya da örneğin klinik biyostatik ya da genetik epidemiyoloji gibi makine öğrenen topluluğun tekniklerinin tanıtılmasıyla biraz eksik olduğunu hissediyorum.

Başka yerde ele alınabilecek veri görselleştirmedeki hesaplama püf noktaları veya yaygın tuzaklar dışında, şunu sormak isterim: Verimli veri analizi için tavsiye edebileceğiniz en önemli kurallar nelerdir? ( cevap başına bir kural, lütfen ).

Bir meslektaşınıza, istatistiksel modelleme konusunda güçlü bir geçmişi olmayan bir araştırmacıya veya orta ila ileri düzeydeki bir öğrenciye verebileceğiniz kılavuzları düşünüyorum. Bu, örnekleme stratejileri, özellik seçimi veya model oluşturma, model karşılaştırma, tahmin sonrası vb. Gibi çeşitli veri analiz aşamaları ile ilgili olabilir.

Yanıtlar:


62

Analize başlamadan önce bazı temel verileri kontrol etmeyi unutmayın. Özellikle, ID numarası, veri toplama tarihi / saati veya benzeri ile analiz etmek istediğiniz her değişkenin dağılım grafiğine bakın. Göz, genellikle istatistikler, olağandışı bir şey göstermediğinde sorunları ortaya çıkaran kalıpları toplayabilir. Analiz için bir günlük veya başka bir dönüşüm kullanacaksanız, aynı zamanda arsa için de kullanın.


6
Bunu zor yoldan öğrendim. İki defa.
Kasım'da

2
Evet! Zıplamadan önce Bak. Lütfen verilere bakın.
vqv

7
Verilerin Görsel inceleme yapabilirsiniz kararlar sonrası hoc yapılırsa tip I hata şişirmek. Önceden belirlenmiş oldukları gibi doğrulayıcı analizler yapma eğilimindeyim ve keşif ya da duyarlılık analizleri olarak denetimden etkilenen sonuçları dahil ediyorum.
AdamO

51

Analizinizi tekrarlanabilir tutun. Bir gözden geçiren kişi veya patronunuz ya da bir başkası, sonuçta size tam olarak nasıl ulaştığınızı soracaktır - analizden sonra muhtemelen altı ay veya daha fazla. Sen olacak değil size kullandığınız belirli modelini seçtim, yaptığımız ... Ve tüm bu yeniden bir ağrı ne analizi, veri temizliği nasıl hatırlıyorum.

Sonuç: bir tür komut dosyası dili kullanın, analiz komut dosyalarınıza yorum yazın ve bunları saklayın. Kullandığınız şey (R, SAS, Stata, her neyse) tamamen tekrarlanabilir bir betiğe sahip olmaktan daha az önemlidir. Bunun imkansız veya uygunsuz olduğu ortamları reddet.


24
R kullanacaksanız, R kodunuzu raporunuzu üreten bir Sweave belgesine yerleştirmenizi tavsiye ederim. Bu şekilde R kodu raporda kalır.
John D. Cook

36

Bedava öğle yemeği yok

İstatistiksel başarısızlıkların büyük bir kısmı, saklı varsayımların yükünü göz önünde bulundurmaksızın "Önemini hesapla" adlı büyük ve parlak bir düğmeyi tıklatarak oluşturulur.

Tekrar et

Rastgele bir jeneratöre yapılan tek bir çağrı olsa bile, birinin şansı ya da şansı kötü olabilir ve bu nedenle yanlış sonuçlara atlayabilirsiniz.


29

Cevap başına bir kural ;-)

Çalışmayı yapmadan önce istatistikçi ile konuşun . Mümkünse, hibeye başvurmadan önce. Çalıştığınız sorunu anlamasına yardımcı olun, toplamak üzere olduğunuz verilerin nasıl analiz edileceği ve çalışma tasarımınız ve veri gereksinimleriniz için ne anlama geldiği hakkında düşünmek için girdi alın. Belki de istatistikler / adam, hastaları kimin teşhis ettiğini hesaplamak için hiyerarşik bir model yapmayı önerir - o zaman kimin kimin teşhis edildiğini izlemeniz gerekir. Kulağa önemsiz geliyor, ancak veri toplamadan önce (ve çok önemli bir şey toplayamıyorsanız) bundan önce düşünmek çok daha iyi.

İlgili bir notta: başlamadan önce güç analizi yapın. Hiçbir şey, yeterince büyük bir örneklem büyüklüğü için bütçelenmemiş olmak kadar sinir bozucu olamaz. Hangi etki büyüklüğünü beklediğinizi düşünürken, yayın önyargısını unutmayın - bulacağınız etki büyüklüğü (önyargılı) literatür göz önüne alındığında beklenenden daha küçük olacaktır.


28

Öğrencilerime söylediğim bir şey, her p değeri için uygun bir grafik üretmektir. örneğin, korelasyon testi yaparlarsa bir saçılma grafiği, tek yönlü bir ANOVA yaparlarsa yan yana kutu grafikleri, vb.


28

Verilerinizi analiz etmenin iki yolu arasında karar veriyorsanız, her ikisini de deneyin ve bir fark yaratıp yaratmadığına bakın.

Bu, pek çok bağlamda kullanışlıdır:

  • Dönüştürmek ya da dönüştürmemek
  • Parametrik olmayan veya parametrik test
  • Spearman's or Pearson's korelasyonu
  • PCA veya faktör analizi
  • Aritmetik ortalamanın ya da ortalamanın sağlam bir tahmininin kullanılıp kullanılmayacağı
  • Bir değişkenin dahil edilip edilmeyeceği
  • Liste-silme, ikili silme, değerlendirme veya eksik değerlerin değiştirilmesinin başka bir yönteminin kullanılıp kullanılmayacağı

Bu, konuyu düşünmekten vazgeçmemelidir, ancak en azından asıl bulguların seçim için ne kadar güçlü olduğu konusunda bir fikir verir.


4
Bir teklif mi? Ben sadece alternatif test prosedürlerini denemenin (analiz stratejileri değil!) Tip I hatanın veya başlangıç ​​Güç hesaplamasının kontrolünü nasıl biraz kırmayabileceğini merak ediyorum. SAS'ın sistematik olarak parametrik ve parametrik olmayan testlerden sonuç verdiğini biliyorum (en azından iki örnek ve ANOVA örneklemesinde), ancak bunu her zaman merak uyandırıcı buluyorum: Hangi testin uygulanması gerektiğini görmek için sonuçları görmeden karar vermemeli miyiz?
chl

4
@ chl iyi nokta. Yukarıdaki kuralın yanlış nedenlerle kullanılabileceğini kabul ediyorum. Yani, işleri çok yönlü bir şekilde denemek ve sadece daha hoş yanıt veren sonucu bildirmek. Analiz kararlarının somut sonuçlar üzerindeki etkisini öğrenmek için, kural kuralını veri analisti eğitim aracı olarak yararlı görüyorum. Özellikle, literatürde çoğu zaman maddi sonuçlar üzerinde en az etkiye sahip olan (örneğin, dönüştürmek ya da dönüştürmemek) rekabet edici bir tavsiyenin olduğu kararların kaybolduğunu gördüm.
Jeromy Anglim

1
@ chl hayır bu bir teklif değil. Ancak başparmak kuralını gerekçesinden ve uyarılarından ayırmanın iyi olduğunu düşündüm. Açıklığa kavuşturmak için onu koyu olarak değiştirdim.
Jeromy Anglim

1
Tamam, farklı dönüşümleri denemek ve çalışılan ilişkileri açıklamanın daha iyi bir yolunu sağlayıp sağlamadığına bakmak bana mantıklı geliyor; anlamadığım şey şu anki uygulama olmasına rağmen farklı analiz stratejileri denemek (ancak yayınlanan makalelerde yayınlanmadı :-), esp. farklı varsayımlara dayandıklarında (EFA ve PCA'da, fazladan bir hata terimi varsayarsınız; parametrik olmayan ve parametrik testlerde varsayımların bir kısmını atıyorsunuz, vb.). Ancak, keşif ve doğrulayıcı analiz arasındaki sınırın çok net olmadığı konusunda hemfikirim ...
chl

2
Bu bana sadece keşif analizi veya eğitim ve validasyon adımları sırasında yararlı görünüyor. Her zaman bir son doğrulama testi adımına ihtiyacınız olacak veya aksi takdirde 'öznel' inançlarınıza göre istediğiniz bir farkı yakaladığınızda iyi sonuç veren belirli önemli sonuçlarla kendinizi kandırabilirsiniz . Hangi yöntemin daha iyi çalıştığını kim değerlendirecek? Şahsen, eğer farklı yöntemlerden şüpheliysem, tahmin edicilerin veya sağlamlığın varyansı gibi şeyleri test etmek için benzetilmiş veriler üzerinde test ederim.
Martijn Weterings

22

Verilerinizi sorgulayın. Modern ucuz RAM çağında, genellikle büyük miktarda veri üzerinde çalışıyoruz. Bir 'şişman parmak' hatası veya 'ondalık basamak kaybetti' analizi kolayca analiz edebilir. Bazı temel sağlık kontrolü olmadan (veya burada başkaları tarafından önerildiği gibi verileri çizerek) kişi çok fazla zaman harcayabilir. Bu aynı zamanda “sağlamlık” için temel tekniklerin aykırı değerlere kullanılmasını önerir.


2
Sonuç: Birinin "NA" yerine eksik bir değeri "9999" olarak kodlayıp kodlamadığına bakın. Yazılımınız bu değeri gerçek değerde kullanıyorsa analizinizi bozacaktır.
Stephan Kolassa

21

Ham veriden son analizlere / sonuçlara kadar programlama mantığı zincirini gösteren yazılımı kullanın. Bir kullanıcının bir hücrede algılanamayan bir hata yapabileceği Excel gibi yazılımlardan kaçının, yalnızca el ile kontrol edin.


1
VisTrails bu sürece yardımcı olan bir sistemdir. (Sadece homebrew sistemlerini kullandım; ortak grup hedefleri belirli bir araçtan daha önemlidir.)
denis,

18

Her zaman kendinize "bu sonuçların anlamı nedir ve nasıl kullanılacaklar?" Diye sorun.

Genellikle istatistik kullanmanın amacı belirsizlik altında karar vermede yardımcı olmaktır. Bu nedenle aklınızın önünde "Bu analiz sonucunda hangi kararlar alınacak ve bu analiz bu kararları nasıl etkileyecek?" Olması önemlidir. (örneğin, bir makale yayınlayın, yeni bir yöntem kullanılmasını önerin, Y'ye fon sağlamak için $ X sağlayın, daha fazla veri edinin, tahmini bir miktarı E olarak bildiriniz vb.) .....

Alınacak herhangi bir kararın gelmediğini hissetmiyorsanız, o zaman kişi neden analizi yaptığınızı merak ediyor (analiz yapmak oldukça pahalı). İstatistiği, bir sonun kendisinden ziyade bir amaç için bir araç olduğu için “sıkıntı” olarak düşünüyorum. Kanımca sadece belirsizliği ölçüyoruz, böylece bu belirsizliği açıklayan kararları kesin olarak almak için kullanabiliriz.

Bence bu işleri basit tutmanın genel olarak iyi bir politika olmasının bir nedeni, çünkü basit bir çözümle gerçek dünyaya (ve dolayısıyla kararın alındığı ortama) karmaşık çözümden daha kolay bir ilişki kurmak daha kolay. . Basit cevabın sınırlarını anlamak da genellikle daha kolaydır. Daha sonra basit çözümün sınırlarını ve karmaşık olanın bunları nasıl ele aldığını anladığınızda daha karmaşık çözümlere geçersiniz.


3
Her şeyi basit tutmak nosyonunun dışında her şeye katılıyorum. Bana göre sadelik ya da karmaşıklık, açıkça açıkladığınız yanlış kararın maliyetinin bir fonksiyonu olmalıdır. Sadelik bir alanda ihmal edilebilir maliyetlere sahip olabilir (örneğin, müşteriye yanlış reklamı sunma) ve diğerinde çılgınca farklı bir maliyet (hastaya yanlış tedaviyi uygulama) olabilir.
Thomas Speidel

18

Uzun bir liste olabilir, ancak bir kaçını söylemek gerekirse: (belirli bir sıra ile)

  1. P değeri olasılık DEĞİLDİR. Spesifik olarak, Tip I hata yapma olasılığı yoktur. Benzer şekilde, CI'lerin verilen veriler için olasılıksal bir yorumu yoktur. Tekrarlanan deneyler için geçerlidirler.

  2. Varyansa ilişkin problem pratikte çoğu zaman önyargılıdır, bu nedenle küçük varyansa dayalı önyargılı bir tahmin, büyük varyanslı (çoğu zaman) tarafsız bir tahminden daha iyidir.

  3. Model uydurma, yinelemeli bir süreçtir. Verileri analiz etmeden önce verinin kaynağını ve açıklamaya uyan ya da uymayan olası modelleri anlayın. Ayrıca, modelinizdeki tüm tasarım sorunlarını modellemeyi deneyin.

  4. Analiz etmeden önce görselleştirme araçlarını kullanın, verilere bakın (olası anormallikler, belirgin eğilimler vs.). Modelin bu verilere nasıl uyduğunu görmek için görselleştirme yöntemlerini (mümkünse) kullanın.

  5. Sonuncusu ama en az değil, ne için yapıldıkları için istatistiksel yazılım kullanın (hesaplama görevinizi kolaylaştırmak için), insan düşüncesinin yerine geçmezler.


14
Öğe 1 yanlış: P değeri, boş hipotezi göz önüne alındığında aşırı veya daha aşırı olarak veri alma olasılığıdır. Gibi bildiğim kadarıyla P demektir olan koşullu ama yine de bir olasılık - Bir olasılık. Sizlerin ifadesi, Neyman-Pearson paradigması hataları içinde çalışmakta olan durumlarda doğrudur, ancak P değerleri boş hipoteze karşı delillerin delili olduğu Balıkçı paradigması içinde çalışmamaktadır. Paradigmaların düzenli olarak tutarsız bir karides ezmesine karıştırıldığı, ancak her ikisinin de tek başına ve sağlam kullanıldığında 'doğru' olduğu doğrudur.
Michael Lew,

2
Güven aralıkları için, yine de, yalnızca Neymanya güven aralıkları sınırları dahilinde haklısınız. Fisher (ve ondan önceki diğerleri) ayrıca kişinin güven aralığı olarak yorumlayacağı şeyleri tasarladı ve kullandı ve aralıkları veren belirli bir deneye atıfta bulunarak bu tür aralıkların tamamen geçerli bir yorumu var. Benim düşünceme göre, Neyman'ı tercih ediyorlardı. Ayrık fonksiyonlar: Güven aralığı kapsamı? Daha fazla ayrıntı için: stats.stackexchange.com/questions/8844/…
Michael Lew

@Michael haklısın, ama görelim: Null kaç kez doğrudur? Ya da daha iyisi: Boş olanın doğru olup olmadığını kimse ispatlayabilir mi? Bununla ilgili derin felsefi tartışmalar yapabiliriz ancak konu bu değil. Kalite, kontrol tekrarı mantıklı, ama bilimde iyi bir karar kuralı gerekir verileri şart.
suncoolsu

1
Fisher bunu biliyordu (gözlemlenen veriler üzerinde koşullandırma ve kalite kontrolüne ilişkin sözler buna dayanıyor). Buna dayanarak birçok karşı örnek üretti. Bayesyalılar bunun için savaşıyor, diyelim ki yarım yüzyıldan fazla bir süredir.
suncoolsu

1
@Michael Üzgünüm, yeterince net olmasaydım. Söylemek istediğim her şey: P-değeri SADECE null doğru olduğunda bir olasılıktır , ancak çoğu zaman null doğru değildir (olduğu gibi: hiçbir zaman olmasını beklemiyoruz ; doğru olduğunu varsayıyoruz, fakat varsayımımız pratik olarak yanlıştır.) İlgilendiğiniz takdirde, bu fikri daha ayrıntılı olarak tartışan bazı literatüre dikkat çekebilirim. μ=0
suncoolsu

13

Veri organizasyonu / yönetimi için, veri setinde yeni değişkenler oluşturduğunuzda (örneğin, vücut kütle indeksi boy ve ağırlıktan hesaplanır), orijinal değişkenlerin asla silinmediğinden emin olun. Tahribatsız bir yaklaşım, tekrarlanabilirlik bakış açısından en iyisidir. Bir komutu ne zaman yanlış gireceğinizi asla bilemezsiniz ve daha sonra değişken üretiminizi yinelemeniz gerekir. Orijinal değişkenler olmadan çok zaman kaybedersiniz!


11

Düşünün sabit temel veri üretme işleminin (DGP) gerçekleştirilir. Kullanmak istediğiniz model DGP'yi yansıtmıyorsa, yeni bir model bulmanız gerekir.


DGP'nin ne olduğunu nasıl biliyorsunuz, nasıl biliyorsunuz? Örneğin, zaman serisini iyi gelişmiş bir teoriye sahip olmadığım bir alanda çalıştırıyorum (neden bazı kamu harcamaları ortaya çıkıyor). Bu durumda gerçek süreci bilmenin mümkün olduğunu sanmıyorum.
user54285

8

Histogramlar için, bir histogramdaki kutu sayısı için iyi bir kural :

veri noktalarının sayısının karekökü


6

Gittikçe daha geniş veri kümelerine ve daha güçlü yazılımlara rağmen, aşırı sığma modelleri araştırmacılar için, özellikle henüz fazla sığma tarafından yakılmayanlar için büyük bir tehlikedir. Aşırı uydurma, verilerinizden ve son teknolojiden daha karmaşık bir şey yerleştirdiğiniz anlamına gelir. Aşk ya da güzellik gibi, tanımlaması zordur, resmi olarak tanımlamak için tek başına bırakın, ancak tanınması daha kolaydır.

Minimal bir kural, klasik regresyon gibi bir şey için tahmin edilen her parametre için 10 veri noktasıdır ve dikkate almazsanız sonuçlara dikkat edin. Diğer analizler için, özellikle verilerde nadir kategoriler varsa, iyi bir iş yapmak için genellikle çok daha fazlasına ihtiyacınız vardır.

Bir modele kolayca uyabilseniz bile, ne anlama geldiği ve çok benzer bir veri kümesiyle ne kadar tekrarlanabileceği konusunda sürekli endişelenmelisiniz.


Bu genellikle cevabın şartlı olarak normal olduğu modeller için genel bir kural olarak görülür. Diğer durumlarda, çok liberaldir. Örneğin, ikili sınıflandırma için, ilgili genel kural, her değişken için daha az rastlanan kategoride 15 gözlem olacaktır; Hayatta kalma analizi için, her değişken için 10 olay (yani sansürlü olmayan veriler) olacaktır.
gung

Katılıyorum. Düzenleyeceğim, ancak neden daha uzun yorumların yanı sıra kendi kurallarınızı yayınlamıyorsunuz?
Nick Cox

1
Son cümleyi vurgulamalısınız: "Bir modele kolayca uyabilseniz bile, bunun ne anlama geldiği ve benzer bir veri setiyle ne kadar tekrarlanabilir olduğu konusunda sürekli endişelenmelisiniz."
Martijn Weterings,

6

Bir tahmin probleminde (yani, bir öğrenme seti verilen verilen tahmin etmeniz gerektiğinde ) Baş parmağın kuralı (herhangi bir karmaşık modellemeden önce yapılması gereken) ( Y t , X, t ) t > T ( Y 1 , X, 1 ) , ... , ( Y , T , X, T )Yt+h(Yt,Xt) t>T(Y1,X1),,(YT,XT)

  1. Klimatoloji ( öğrenme seti üzerinde gözlemlenen ortalama değere göre tahmin etme, muhtemelen belli periyodik düzenleri kaldırarak)Yt+h
  2. Kalıcılık ( son gözlenen değere göre tahmin: ). Y tYt+hYt

Şimdi sık sık yaptığım son basit kriter / kural olarak, R yazılımında randomForest ( ~ , data = learningSet) kullanıyor. Size (R'de 2 kod satırı ile) herhangi bir modelleme olmadan neyin başarılabileceğine dair ilk fikir verir. Y t + X tYt+hYt+Xt


5

Model kolay ve hızlı bir şekilde bir araya gelmezse, yazılımın hatası olabilir. Bununla birlikte, verilerinizin model için uygun olmadığı veya modelin veriler için uygun olmadığı daha yaygındır. Hangisinin ve ampirikçiler ile teorisyenlerin farklı görüşleri olabileceğini söylemek zor olabilir. Ancak konu düşünce, verilere gerçekten bakma ve modelin yorumlanması hakkında sürekli olarak düşünme, her şeyin yapabileceği kadar yardımcı olur. Her şeyden önce, karmaşık bir model bir araya gelmiyorsa daha basit bir model deneyin.

Yakınsamaya zorlamada veya zafer ilan etmede ve birçok yinelemeden sonra ancak modeliniz gerçekten birleşmeden önce sonuç elde etmede kazanç yoktur. En iyisi, bunu yaparsan kendini kandırıyorsun.


"gerçekten verilere bakarak" bu işi yapan NN aldığımızda çok iyi olurdu.
Martijn Weterings,

Buna JWT adı verildi.
Nick Cox,

5

Enstrümantal değişkenlerde regresyon daima enstrümanlarınızın ortak önemini kontrol edin. Staiger-Stock kuralı kuralı, 10 yaşından küçük bir F istatistiğinin endişe verici olduğunu ve cihazlarınızın zayıf olabileceğini, yani endojen değişkenle yeterince korele olmadıklarını belirtir. Ancak, bu otomatik olarak 10'un üzerindeki F'nin güçlü aletleri garanti ettiği anlamına gelmez. Staiger ve Stock (1997) , 2SLS gibi enstrümantal değişken tekniklerinin, eğer enstrümanlar endojen değişkenle zayıf bir şekilde korele olduğunda "küçük" numunelerde kötü şekilde önyargılı olabileceğini göstermiştir. Örnekleri, 300.000'den fazla gözlemi olan Angrist ve Krueger (1991) tarafından yapılan araştırmalardı - "küçük" numuneler kavramı hakkındaki rahatsız edici bir gerçek.


Makaleye bağlantıyı ekledim ancak bu yanıt dizisinin biraz daha biçimlendirmeye ihtiyaç duyduğuna inanıyorum, makaleyi çok hızlı bir şekilde taramaya dayanarak 'kurallar kuralının' altını çizmeyi çok zor buldum ve bu cevap çok sezgisel değil.
Martijn Weterings,

3

Bilgi kriterlerini seçmek için bir kriter yoktur.

Birisi "? IC bunu gösterir, ancak genellikle yanlış sonuçlar vermesiyle bilinir" gibi bir şey söylediğinde (nerede? İstediğiniz herhangi bir mektuptur), modeli ve özellikle bunu yapıp yapmadığını düşünmek zorunda kalacağınızı biliyorsunuz. bilimsel veya pratik anlamda.

Bunu hiçbir cebir size söyleyemez.


2

Bunu bir yerde okudum (muhtemelen onaylanmış haldeyken) ve hiçbir yerde bulamadım, bu yüzden işte ...

İlginç bir sonuç keşfettiyseniz, muhtemelen yanlış.

Şaşırtıcı bir p-değeri veya neredeyse mükemmel bir çapraz doğrulama hatası ihtimalinden dolayı heyecanlanmak çok kolaydır. Şahsen kendinden geçmiş olarak meslektaşlarıma yalnızca geri çekmek zorunda oldukları harika (yanlış) sonuçlar verdim. Çoğu zaman, gerçek olamayacak kadar iyi görünüyorsa ...

'doğru doğru. 'Taint hiç doğru.


2

Erdemli değil, yiğit olmaya çalışın. Bu, normalde açık, normal olmayan veya doğrusal olmayan işaretlerin küçük işaretler bırakmasına izin vermeyin. . - Danca dilinde, 'dristig' vs. 'dydig' sıfatlarıdır.


1

Boyuna verileri analiz ederken, değişkenlerin her zaman aynı şekilde kodlandığından emin olun.

İkincil verilerin analizini içeren tezimi yazarken, ortalama depresyon puanlarında yıldan yıla başka bir şekilde sabit bir ortalama boyunca 1 birimlik bir kayma sıkıntısı yaşandı: Veri seti, onaylanmış bir enstrüman için ölçek maddeleri 0-3 yerine 1-4 olarak kodlanmıştır.


1

Hipoteziniz, model seçiminizi yönlendirmeli, tersi olmaz.

Maslow'un deyişiyle, eğer bir çekiçseniz, her şey bir çiviye benzer. Spesifik modeller doğruca yerleşik olan dünya hakkında körleştirici ve varsayımlarla gelir: örneğin, dinamik olmayan modeller tedavi sonucu geri bildirimi üzerine boğulur.


1

Modelinizin yapısının, modelinizin varsayımlarının yalnızca matematiksel eserleri olan "sonuçlar" oluşturduğunu kontrol etmek için simülasyonu kullanın

Analizinizi, yeniden adlandırılan değişkenler veya birbiriyle ilişkisiz olduğu bilinen benzetilmiş değişkenler üzerinde yapın . Bu, birçok kez ve gerçek verilerde elde ettiğiniz sonuçlarla ortalama puan tahminlerini (ve güven veya güvenilir aralıklarla) karşılaştırıyor mu: hepsi bu kadar farklı mı?


0

Ben bir istatistikçiden çok veri analistiyim ama bunlar benim önerim.

1) Verileri analiz etmeden önce, yönteminizin varsayımlarının doğru olduğundan emin olun. Sonuçları gördükten sonra, sorunları çözdükten ve sonuçlar değiştikten sonra bile unutmak zor olabilir.

2) Verilerinizi bilmek yardımcı olur. Zaman serilerini çalıştırdım ve son yıllarda verilere göre çok az anlamlı bir sonuç aldım. Bunun ışığında yöntemleri gözden geçirdim ve yöntemdeki modellerin ortalamalarının bir dönem boyunca sonuçları çarpıttığını keşfettim (ve yapısal bir kırılma meydana geldi).

3) Temel kurallara dikkat edin. Bireysel araştırmacıların deneyimlerini kendi verilerinden yansıtırlar ve alanları sizinkinden çok farklıysa sonuçları, verileriniz için doğru olmayabilir. Dahası, ve bu benim için bir şok oldu, istatistikçiler çoğu zaman kilit noktalara katılmıyorlardı.

4) Verileri farklı yöntemlerle analiz etmeye çalışın ve sonuçların benzer olup olmadığına bakın. Hiçbir yöntemin mükemmel olmadığını ve varsayımların ihlallerini ne zaman yapabileceğinizi kontrol etmek için dikkatli olun.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.