Bu, aşağıdakilerle ilgili pek çok konuyu ortaya çıkaran karmaşık bir konudur: 1) hipotezin açıkça belirtilmesi, 2) varsayımsal bir etkinin altında yatan nedensel mekanizmaların (olabilir) ve 3) sunum / seçim tarzının anlaşılması.
Sence "grupları bu iddiaya, ses istatistiksel uygulama uygularsanız, yaptıkları anda olan benzer" bir denklik test yapılması gerekir. Bununla birlikte, denklik testleri NHST muadilleriyle aynı sorunlara maruz kalmaktadır: güç sadece örneklem büyüklüğünün ve karşılaştırma sayısının bir yansımasıdır: farklılıklar bekliyoruz, ancak ana analiz üzerindeki kapsamları ve etkileri çok daha önemlidir.
Bu durumlarla karşı karşıya kaldıklarında, taban çizgisi karşılaştırmaları neredeyse her zaman kırmızı ringa balığıdır. Daha iyi yöntemler (bilim ve istatistik) uygulanabilir. Böyle soruları cevaplarken göz önünde bulundurduğum birkaç hisse senedi konseptim / yanıtım var.
"Toplam" bir sütun, muamele ile bölünmüş sütunlardan daha önemlidir; bu değerlerin tartışılması gerekmektedir .
Klinik çalışmalarda, güvenlik örneği genellikle analiz edilir. Bu, ilk önce yaklaşılmış, daha sonra onaylanmış, daha sonra randomize edilmiş ve son olarak en az bir kontrol veya tedavi yinelemesine maruz kalanların alt kümesidir. Bu süreçte çeşitli derecelerde katılım yanlılığıyla karşı karşıyayız.
Muhtemelen bu çalışmaların en önemli ve göz ardı edilen yönü, Tablo 1 sonuçlarının toplu olarak sunulmasıdır . Bu, Tablo 1'in en önemli amacına ulaşır: diğer araştırmacılara, çalışma örneğinin sonuçların geçerli olduğu daha geniş bir nüfus için ne kadar genelleştirilebilir olduğunu göstermek.
Sabitleme araştırmacılarının, okuyucularının ve hakemlerinin, örneğin dahil etme / hariç tutma ölçütlerine ve genelleştirilebilirliğine tam bir göz ardı edildiğinde hasta özellikleri içindeki teğet eğilimler üzerinde olmalarını şaşırtıcı buluyorum.
Bunu bir sorun olarak görmezden gelen bir davada analist olduğumu söylemekten utanıyorum. Hastaları işe aldık ve lojistik konulardan dolayı müdahaleyi uygulamadan önce yaklaşık bir yıl bekledik. Konsors diyagramı sadece bu dönemler arasında büyük bir düşüş göstermekle kalmadı, aynı zamanda örnek değişti. Sonuç, ulaşmayı amaçladığımız insanlardan büyük ölçüde işsiz / yetersiz, daha yaşlı ve daha sağlıklıydı. Çalışmanın genelleştirilebilirliği konusunda derin endişelerim vardı, ancak bu endişelerin bilinmesi için lobi yapmak zordu.
Temel karakteristiklerdeki dengesizliği tespit etmek için testlerin güç ve Tip I hatası, gerçek karakteristik sayısına bağlıdır
Daha önce belirtildiği gibi, temel değişkenlerin bu kadar ayrıntılı bir listesini sunma noktası, örneğin ayrıntılı bir görüntüsünü vermektir; hasta öyküsü, laboratuvarları, ilaçları ve demografik özellikleri. Tüm bunlar klinisyenlerin hastalara tedavi önermek için kullandıkları yönlerdir. Hepsinin sonucu tahmin ettiğine inanılıyor. Ancak bu faktörlerin sayısı şaşırtıcıdır. En fazla 30 farklı değişken karşılaştırılabilir. Tip I hatasının ham riski 1- (1-0.05) ^ 30 = 0.79'dur. Test yapılması gerekiyorsa Bonferroni veya permütasyon düzeltmeleri önerilir .
En saf haliyle istatistiksel testlerin tarafsız olması amaçlanmıştır ve önceden belirtilmesi gerekmektedir. Bununla birlikte, temel karakteristiklerin seçimi ve sunumu genellikle görecelidir. İkinci yaklaşımın uygun olduğunu düşünüyorum: eğer denememde olduğu gibi, örneği etkili bir şekilde tanımlayan ilginç özellikler varsa, bu değerleri ad hoc sunma özgürlüğüne sahip olmalıyız . Test, herhangi bir değere sahipse yapılabilir, ancak normal uyarılar geçerlidir: ilgilenilen hipotezler değildir, önemli ve anlamlı olmayan sonuçların ne anlama geldiği konusunda yüksek bir kafa karışıklığı riski vardır ve sonuçlar daha çok herhangi bir gerçeğe göre örnek büyüklüğü ve sunum konuları.
Yeniden sıralama yapılabilir, ancak sadece hastalar tedaviye maruz kalmadan önce
Bahsettiğim gibi, analiz edilen numune tipik olarak güvenlik örneğidir. Bununla birlikte, yeniden-randomizasyon, çalışma tedavisine maruz kalmamış hastalara yoğun olarak savunulan ve teorik olarak tutarlı bir yaklaşımdır. Bu yalnızca toplu kaydın gerçekleştirildiği ayarlar için geçerlidir. Burada 100 katılımcı işe alınmakta ve randomize edilmektedir. Örneğin, olasılık bir gruba yüksek oranda yaşlı insan atarsa, örnek yaş dengelenmek için yeniden randomize edilebilir. Bu, çoğu denemenin yapıldığı ayar olan sıralı veya kademeli kayıt ile yapılamaz. Bunun nedeni, kayıt zamanlamasının hasta durumunu yaygın vaka "sapması" (kafa karıştırıcı olay ve yaygın uygunluk kriterleri) ile tahmin etme eğiliminde olmasıdır.
Dengeli tasarım geçerli çıkarım için bir gereklilik değildir
Rasgeleleştirme varsayımı, teorik olarak, tüm katılımcıların ortalama olarak eşit değişken dağılımlarına sahip olacağını söylüyor. Bununla birlikte, daha önce de belirtildiği gibi, 30 veya daha fazla seviyeyi karşılaştırırken, dengesizliğin kümülatif olasılığı göz ardı edilemez. Aslında, ortak değişkenlerin dengesizliği , bütünü göz önüne alındığında ilgisiz olabilir.
Eğer randomizasyon adil ise, tedavi grubunda yaşın arttığını görebiliriz, fakat kontrol grubunda sigara içiciliği artmaktadır: her ikisi de sonuç riskine bireysel olarak katkıda bulunur. Etkili ve geçerli çıkarım için gereken, eğilim skorunun gruplar arasında dengelenmesidir. Bu çok daha zayıf bir durumdur. Ne yazık ki, eğilim bir risk modeli olmadan denge açısından denetlenemez. Bununla birlikte, bu eğilimin eş değişkenlerin bir kombinasyonuna bağlı olduğunu görmek kolaydır ve tam olarak gösterilmesi imkansız olmasına rağmen, randomize bir numunedeki eğilimlerde dengesizlik olasılığı çok daha az olasıdır.
Bir risk modeli biliniyorsa veya sonucun güçlü tahmincileri varsa, tedavi grupları arasında dengelenmiş olup olmadıklarına bakılmaksızın, bu faktörler için basitçe ayarlanarak daha verimli ve geçerli RCT'ler yapılır.
En sevdiğim makalelerimden biri, randomize kontrollü çalışmaların 7 efsanesi , bunu tartışıyor. Ayarlama değişkeni, sonucu güçlü bir şekilde öngördüğünde ayarlama verimliliği artırır. Mükemmel 50/50 dengesi ile, sözgelimi engellenen randomizasyon kullanılarak veya hatta randomizasyonun nasıl yapıldığının tesadüfü olarak bile olsa, ayarlamanın CI'leri küçülterek daha az katılımcının eşit derecede güçlü bir çalışma yapmasını gerektirdiği ortaya çıkıyor; bu maliyetleri ve riskleri azaltır. Bunun daha sık yapılmaması şaşırtıcıdır.
Gözlemsel çalışmalar, Tablo 1'in gösterdiklerinden bağımsız olarak karıştırmak için kontrol gerektirir
Rasgeleleştirme varsayımı karıştırmayı ortadan kaldırır. Rastgele olmayan tedavi ile kafa karıştırıcı var. Bir karıştırıcı, sonucun nedeni olan ve yarı deneysel tedavinin alınmasını öngören bir değişkendir. Hangi değişken (ler) in çelişkili olduğunu belirleyen bir test yoktur. Bu soruları cevaplamak için verilere bakma riski, çelişkilerin uzunlamasına değerlerin (ve o zaman bile ...) tamamen mükemmel bir şekilde ölçülmeden aracılardan veya çarpışanlardan neredeyse ayırt edilemez olmasıdır. Arabulucular için ayarlama herhangi bir etkiyi azaltır, çarpıştırıcı ayarı herhangi bir önyargıya neden olabilir. Ayrıca, toplam bir takım çelişkiler için ayarlamaya gerek yoktur, bunun yerine arka kapı kriterlerini kaldırmaları gerekir.
Örneğin, ergenlerde akciğer fonksiyonu ve sigara içimi üzerine yapılan bir çalışmada: büyük çocukların sigara içme olasılığı daha yüksektir, ancak daha uzun olduklarından, akciğer işlevleri daha büyüktür. Arka kapı ölçütünü karşıladığından, sadece yükseklik ayarının karıştırmayı gidermek için yeterli olduğu ortaya çıkıyor. Yaş için daha fazla ayarlama yapmak sadece verimliliği kaybeder. Bununla birlikte, sigara içenlerde ve içmeyenlerde sadece bir tablonun 1 "dengesini" incelemek, hem yaşın hem de boyun "dengesiz" olduğunu ve dolayısıyla kontrol edilmesi gerektiğini düşündürür. Bu yanlış.