Deneyimlerim, sorunun genellikle yetersiz çalışan veya yanlış şeyleri ölçtüğü A / B deneylerinden geliyor. Ama bana öyle geliyor ki, aşırı güçlü bir çalışma, karşılaştırılabilir çalışmalardan daha düşük güven aralıkları, daha düşük p değerleri ve muhtemelen farklı varyans üretiyor. Bunun benzer çalışmaları karşılaştırmayı zorlaştırabileceğini düşünüyorum. Örneğin, uygun gücü kullanarak aşırı güçlü bir çalışmayı tekrarlarsam, etkiyi tam olarak kopyalasam bile p-değerim daha yüksek olurdu. Daha büyük bir örnekte ortaya çıkma şansı daha yüksek olan aykırı değerler varsa, artan örnek boyutu değişkenliği bile artırabilir veya değişkenlik sağlayabilir.
Ayrıca, simülasyonlarım ilgilendikleriniz dışındaki etkilerin daha büyük bir örnekle önemli hale gelebileceğini gösteriyor. Bu nedenle, p değeri size sonuçlarınızın gerçek olma olasılığını doğru olarak söylese de, düşündüğünüzden başka nedenlerle, örneğin bir şans kombinasyonu, kontrol etmediğiniz geçici bir etki ve belki de başka bir şey için gerçek olabilirler. farkında olmadan daha küçük bir etki yarattı. Çalışma biraz fazla güçlüyse, bunun riski düşüktür. Sorun genellikle yeterli gücü bilmek zordur, örneğin, temel metrikler ve minimum hedef etki tahmin edildiğinde veya beklenenden farklıysa.
Ayrıca , bir numunenin çok büyük bir kısmının uyum iyiliği testini, önemsiz sapmalara karşı çok hassas hale getirebileceğini ve potansiyel olarak sezgisel sonuçlara yol açabileceğini iddia eden bir makaleye rastladım .
Bununla birlikte, düşük güç yerine yüksek tarafta hata yapmanın en iyisi olduğuna inanıyorum.