Kontrol değişkenleri üzerindeki grupları karşılaştırdığımızda denklik testleri mi kullanmalıyız?

Tedavileri ve sonuçları düşünen birçok makalede, rahatsızlık değişkenleri (genellikle demografi, bazen tıbbi durumlar) olarak adlandırılabilecek tabloların (genellikle "tablo 1"), "gruplar genel olarak benzer, XXXXX'te anlamlı fark yoktu, bkz. Tablo ". Dolayısıyla açık hedef, farklı tedavilere atanan grupların benzer olduğunu göstermektir.

Ancak bana öyle geliyor ki "boş kabul etmek" olabilir ve yapmamız gereken (ya da yapılması gereken) eşdeğerlik testleri.

Bu randomize çalışmalara veya gözlemsel çalışmalara uygulanabilir. Burada bir şey mi eksik?

equivalence controlling-for-a-variable

— Peter Flom - Monica'yı eski durumuna döndürün
kaynak

Topladım 'tablo 1'e atıfta bulunuyorsunuz. Kendi başına RCT'ler mi yoksa gözlemsel çalışmalar mı soruyorsunuz?

— gung - Monica'yı eski

@gung yes, genellikle Tablo 1. Gözlemsel çalışmalar veya RCT'ler olabilir. Yorumumu yansıtacak şekilde sorumu düzenledim.

— Peter Flom - Monica'yı eski durumuna döndürün

Açık olanı belirtme riskiyle karşılaşsam bile: Bu konuyu ele alan bazı makaleler vardır (örn. De Boer ve diğerleri (2015) ). Bence vicdan, temel tablolarda hipotez testlerinden vazgeçilmesi gerektiğidir. CONSORT Tablosu klinik çalışmalarda yanı sıra STROBE'U Bildirimi gözlemsel çalışmalar bazal tablolarda test hipotezi kaçınarak tavsiye için. Eşdeğerlik testleri daha iyi ise bilmiyorum.

— COOLSerdash

Null'a karşı test etmek ya da eşdeğerlik testi yapmak motivasyona bağlıdır ve tablodan çizilebilecek tartışmayı etkiler. Eşdeğerlik iddia etmek çok güçlü bir durumdur ve yazar, demografik veriler vb. Hakkında güçlü sonuçlar çıkarmak istemezse çoğu vaka için gerekli olmadığından şüpheleniyorum. demografik. Buna bakmadım ama başkalarının neye benzeyebileceğine dair fikirleriyle ilgilenirdim.

— 18'de ReneBt

Bu, aşağıdakilerle ilgili pek çok konuyu ortaya çıkaran karmaşık bir konudur: 1) hipotezin açıkça belirtilmesi, 2) varsayımsal bir etkinin altında yatan nedensel mekanizmaların (olabilir) ve 3) sunum / seçim tarzının anlaşılması.

Sence "grupları bu iddiaya, ses istatistiksel uygulama uygularsanız, yaptıkları anda olan benzer" bir denklik test yapılması gerekir. Bununla birlikte, denklik testleri NHST muadilleriyle aynı sorunlara maruz kalmaktadır: güç sadece örneklem büyüklüğünün ve karşılaştırma sayısının bir yansımasıdır: farklılıklar bekliyoruz, ancak ana analiz üzerindeki kapsamları ve etkileri çok daha önemlidir.

Bu durumlarla karşı karşıya kaldıklarında, taban çizgisi karşılaştırmaları neredeyse her zaman kırmızı ringa balığıdır. Daha iyi yöntemler (bilim ve istatistik) uygulanabilir. Böyle soruları cevaplarken göz önünde bulundurduğum birkaç hisse senedi konseptim / yanıtım var.

"Toplam" bir sütun, muamele ile bölünmüş sütunlardan daha önemlidir; bu değerlerin tartışılması gerekmektedir .

Klinik çalışmalarda, güvenlik örneği genellikle analiz edilir. Bu, ilk önce yaklaşılmış, daha sonra onaylanmış, daha sonra randomize edilmiş ve son olarak en az bir kontrol veya tedavi yinelemesine maruz kalanların alt kümesidir. Bu süreçte çeşitli derecelerde katılım yanlılığıyla karşı karşıyayız.

Muhtemelen bu çalışmaların en önemli ve göz ardı edilen yönü, Tablo 1 sonuçlarının toplu olarak sunulmasıdır . Bu, Tablo 1'in en önemli amacına ulaşır: diğer araştırmacılara, çalışma örneğinin sonuçların geçerli olduğu daha geniş bir nüfus için ne kadar genelleştirilebilir olduğunu göstermek.

Sabitleme araştırmacılarının, okuyucularının ve hakemlerinin, örneğin dahil etme / hariç tutma ölçütlerine ve genelleştirilebilirliğine tam bir göz ardı edildiğinde hasta özellikleri içindeki teğet eğilimler üzerinde olmalarını şaşırtıcı buluyorum.

Bunu bir sorun olarak görmezden gelen bir davada analist olduğumu söylemekten utanıyorum. Hastaları işe aldık ve lojistik konulardan dolayı müdahaleyi uygulamadan önce yaklaşık bir yıl bekledik. Konsors diyagramı sadece bu dönemler arasında büyük bir düşüş göstermekle kalmadı, aynı zamanda örnek değişti. Sonuç, ulaşmayı amaçladığımız insanlardan büyük ölçüde işsiz / yetersiz, daha yaşlı ve daha sağlıklıydı. Çalışmanın genelleştirilebilirliği konusunda derin endişelerim vardı, ancak bu endişelerin bilinmesi için lobi yapmak zordu.

Temel karakteristiklerdeki dengesizliği tespit etmek için testlerin güç ve Tip I hatası, gerçek karakteristik sayısına bağlıdır

Daha önce belirtildiği gibi, temel değişkenlerin bu kadar ayrıntılı bir listesini sunma noktası, örneğin ayrıntılı bir görüntüsünü vermektir; hasta öyküsü, laboratuvarları, ilaçları ve demografik özellikleri. Tüm bunlar klinisyenlerin hastalara tedavi önermek için kullandıkları yönlerdir. Hepsinin sonucu tahmin ettiğine inanılıyor. Ancak bu faktörlerin sayısı şaşırtıcıdır. En fazla 30 farklı değişken karşılaştırılabilir. Tip I hatasının ham riski 1- (1-0.05) ^ 30 = 0.79'dur. Test yapılması gerekiyorsa Bonferroni veya permütasyon düzeltmeleri önerilir .

En saf haliyle istatistiksel testlerin tarafsız olması amaçlanmıştır ve önceden belirtilmesi gerekmektedir. Bununla birlikte, temel karakteristiklerin seçimi ve sunumu genellikle görecelidir. İkinci yaklaşımın uygun olduğunu düşünüyorum: eğer denememde olduğu gibi, örneği etkili bir şekilde tanımlayan ilginç özellikler varsa, bu değerleri ad hoc sunma özgürlüğüne sahip olmalıyız . Test, herhangi bir değere sahipse yapılabilir, ancak normal uyarılar geçerlidir: ilgilenilen hipotezler değildir, önemli ve anlamlı olmayan sonuçların ne anlama geldiği konusunda yüksek bir kafa karışıklığı riski vardır ve sonuçlar daha çok herhangi bir gerçeğe göre örnek büyüklüğü ve sunum konuları.

Yeniden sıralama yapılabilir, ancak sadece hastalar tedaviye maruz kalmadan önce

Bahsettiğim gibi, analiz edilen numune tipik olarak güvenlik örneğidir. Bununla birlikte, yeniden-randomizasyon, çalışma tedavisine maruz kalmamış hastalara yoğun olarak savunulan ve teorik olarak tutarlı bir yaklaşımdır. Bu yalnızca toplu kaydın gerçekleştirildiği ayarlar için geçerlidir. Burada 100 katılımcı işe alınmakta ve randomize edilmektedir. Örneğin, olasılık bir gruba yüksek oranda yaşlı insan atarsa, örnek yaş dengelenmek için yeniden randomize edilebilir. Bu, çoğu denemenin yapıldığı ayar olan sıralı veya kademeli kayıt ile yapılamaz. Bunun nedeni, kayıt zamanlamasının hasta durumunu yaygın vaka "sapması" (kafa karıştırıcı olay ve yaygın uygunluk kriterleri) ile tahmin etme eğiliminde olmasıdır.

Dengeli tasarım geçerli çıkarım için bir gereklilik değildir

Rasgeleleştirme varsayımı, teorik olarak, tüm katılımcıların ortalama olarak eşit değişken dağılımlarına sahip olacağını söylüyor. Bununla birlikte, daha önce de belirtildiği gibi, 30 veya daha fazla seviyeyi karşılaştırırken, dengesizliğin kümülatif olasılığı göz ardı edilemez. Aslında, ortak değişkenlerin dengesizliği , bütünü göz önüne alındığında ilgisiz olabilir.

Eğer randomizasyon adil ise, tedavi grubunda yaşın arttığını görebiliriz, fakat kontrol grubunda sigara içiciliği artmaktadır: her ikisi de sonuç riskine bireysel olarak katkıda bulunur. Etkili ve geçerli çıkarım için gereken, eğilim skorunun gruplar arasında dengelenmesidir. Bu çok daha zayıf bir durumdur. Ne yazık ki, eğilim bir risk modeli olmadan denge açısından denetlenemez. Bununla birlikte, bu eğilimin eş değişkenlerin bir kombinasyonuna bağlı olduğunu görmek kolaydır ve tam olarak gösterilmesi imkansız olmasına rağmen, randomize bir numunedeki eğilimlerde dengesizlik olasılığı çok daha az olasıdır.

Bir risk modeli biliniyorsa veya sonucun güçlü tahmincileri varsa, tedavi grupları arasında dengelenmiş olup olmadıklarına bakılmaksızın, bu faktörler için basitçe ayarlanarak daha verimli ve geçerli RCT'ler yapılır.

En sevdiğim makalelerimden biri, randomize kontrollü çalışmaların 7 efsanesi , bunu tartışıyor. Ayarlama değişkeni, sonucu güçlü bir şekilde öngördüğünde ayarlama verimliliği artırır. Mükemmel 50/50 dengesi ile, sözgelimi engellenen randomizasyon kullanılarak veya hatta randomizasyonun nasıl yapıldığının tesadüfü olarak bile olsa, ayarlamanın CI'leri küçülterek daha az katılımcının eşit derecede güçlü bir çalışma yapmasını gerektirdiği ortaya çıkıyor; bu maliyetleri ve riskleri azaltır. Bunun daha sık yapılmaması şaşırtıcıdır.

Gözlemsel çalışmalar, Tablo 1'in gösterdiklerinden bağımsız olarak karıştırmak için kontrol gerektirir

Rasgeleleştirme varsayımı karıştırmayı ortadan kaldırır. Rastgele olmayan tedavi ile kafa karıştırıcı var. Bir karıştırıcı, sonucun nedeni olan ve yarı deneysel tedavinin alınmasını öngören bir değişkendir. Hangi değişken (ler) in çelişkili olduğunu belirleyen bir test yoktur. Bu soruları cevaplamak için verilere bakma riski, çelişkilerin uzunlamasına değerlerin (ve o zaman bile ...) tamamen mükemmel bir şekilde ölçülmeden aracılardan veya çarpışanlardan neredeyse ayırt edilemez olmasıdır. Arabulucular için ayarlama herhangi bir etkiyi azaltır, çarpıştırıcı ayarı herhangi bir önyargıya neden olabilir. Ayrıca, toplam bir takım çelişkiler için ayarlamaya gerek yoktur, bunun yerine arka kapı kriterlerini kaldırmaları gerekir.

Örneğin, ergenlerde akciğer fonksiyonu ve sigara içimi üzerine yapılan bir çalışmada: büyük çocukların sigara içme olasılığı daha yüksektir, ancak daha uzun olduklarından, akciğer işlevleri daha büyüktür. Arka kapı ölçütünü karşıladığından, sadece yükseklik ayarının karıştırmayı gidermek için yeterli olduğu ortaya çıkıyor. Yaş için daha fazla ayarlama yapmak sadece verimliliği kaybeder. Bununla birlikte, sigara içenlerde ve içmeyenlerde sadece bir tablonun 1 "dengesini" incelemek, hem yaşın hem de boyun "dengesiz" olduğunu ve dolayısıyla kontrol edilmesi gerektiğini düşündürür. Bu yanlış.

— Adamo
kaynak

Buna katılıyorum ve p değerleri ile ilgili sorunların farkındayım. (Bu sitede çok az kişi bulacaksınız veya benden daha fazla anti-p değeri var). Ve ben daha iyi yöntemler için, bazıları yükselttiğiniz için. Tabii ki, bazı değişkenler baskılayıcı olabilir (böylece bunları dahil etmek ana etkinin boyutunu arttırır). Bununla birlikte, diyelim ki, bir dergi için bir makaleyi gözden geçiriyorsam, tablo 1 için eşdeğerlik testleri tavsiye etmenin iyi olduğunu düşünüyor musunuz, yoksa tam cevabınızı burada bulabilir misiniz?

— Peter Flom - Monica'yı eski durumuna döndürün

@PeterFlom Bağlamı şimdi biraz daha iyi görüyorum. İstatistiksel bir gözden geçiren olarak, yorumun sonraki analizlerle ilgili olup olmadığını değerlendiririm. Alakalı değilse, bu yorumu yararlı olmadığı için grev yapmaya teşvik ederim. İlgili ise, onları a) daha sağlam bir analiz yaklaşımını düşünmeye veya b) olası bir etkinin olup olmadığını belirlemek için duyarlılık analizlerini kullanmaya teşvik ederim. Ortak değişkenlerin dengesi sadece analizleri etkilediği sürece önemlidir, bu yüzden dikkatin verilmesini tercih ederim. Eğilim uyumlu bir tasarım değil, belki de öyle mi?

— AdamO

@PeterFlom Bir gözden geçiren olarak, "Tablo 1" deki p-değerlerinden tamamen kurtulmayı önermek mantıklı olmaz mı?

— amip diyor Reinstate Monica

AdamO, büyük cevap (+1), ancak "Tablo 1" bağlamında birden fazla test ayarlamasının "tavsiye edilebilir" önerisiyle biraz endişeliyim. Burada Tip I hatası herhangi bir endişe var mı? Bu durumda, Tip II hatasının aslında çok daha önemli olduğunu hissediyorum (bazı temel değişkenlerin tedavi ve kontrol grupları arasında farklılık göstermesi gerçeğini kaçırmak istemez). Bonferroni kullanıldığında, Tip II hatası büyük ölçüde artacaktır. Bu, @ Peter'ın denklik testleri hakkındaki noktasıyla ilgilidir: "denklik" bakış açısına geçerseniz, bir anlamda Tip I ve Tip II değişim yerleri.

— amip diyor Reinstate Monica

@amoeba Kesinlikle. Bu yaklaşımda ısrar edersek (benim tavsiyem değil) NHST'ler Tip I hatasını kontrol etmemizi gerektirir. Demek istediğim, FWER'i kontrol etmemiz gerektiğidir çünkü hangi değişkenin dengesiz olduğu umrumda değil. 0.2 gibi cömert bir değere ayarlanabilir. Örnek boyutu arttıkça gücün yükseldiği herhangi bir eşdeğerlik testinin farkında değilim , bu yüzden bu tür testlerin gerekçeleri garip, öznel ve kesin değil.

— AdamO