Genellikle biyomedikal araştırmalarda bir eğitim seti kullanmıyoruz - baktığımız sonuç için hangi öngörücülerin önemli risk faktörleri olduğunu görmek için tam veri kümesine lojistik regresyon uyguluyoruz; ya da diğer olası yordayıcıların sonuç üzerindeki etkisini kontrol ederken bir çıkar yordayıcısına bakmak.
Eşik değerleri ile ne demek istediğinizden emin değilim, ancak bir optimize etmek isteyebileceğiniz çeşitli parametreler var: AUC, sürekli bir tahmin değişkenini ikiye ayırmak için kesme değerleri, pozitif ve negatif tahmin değerleri, güven aralıkları ve p-değerleri, yanlış pozitif ve yanlış negatif oranlar. Lojistik regresyon bir denek popülasyonuna bakar ve bu popülasyondaki ilginin sonucuna katkıda bulunan risk faktörlerinin gücünü ve nedensel yönünü değerlendirir. Tabii ki "tersine çevirmek" ve bireyin sahip olduğu risk faktörleri göz önüne alındığında bireyin sonuç riskini belirlemek de mümkündür. Lojistik regresyon, her bireye, bireysel risk faktörlerine dayanarak sonuç için bir risk atar ve varsayılan olarak bu 0,5'tir. Bir konu varsa ' sonuca sahip olma olasılığı (modelinizdeki tüm verilere ve konulara dayanarak) 0,5 veya üstü ise, sonuca sahip olacağını tahmin eder; 0,5'in altındaysa o olmayacağını tahmin eder. Ancak, bu kesme seviyesini, örneğin, model tarafından tahmin edilen daha yanlış pozitiflere sahip olma pahasına da olsa, sonuç alma riski olan daha fazla kişiyi işaretlemek için ayarlayabilirsiniz. Bu kesim seviyesini, hangi bireylerin daha fazla tıbbi takibe sahip olmalarının tavsiye edileceğini tahmin etmek için tarama kararlarını optimize etmek üzere ayarlayabilirsiniz; ve lojistik regresyon modeline dayalı bir tarama testi için pozitif prediktif değerinizi, negatif prediktif değerinizi ve yanlış negatif ve yanlış pozitif oranlarınızı oluşturmak. Modeli veri kümenizin yarısında geliştirebilir ve diğer yarısında test edebilirsiniz, ancak t gerçekten (ve bunu yapmak, 'eğitim' verilerinizi yarıya indirecek ve böylece modelde önemli yordayıcılar bulma gücünü azaltacaktır). Yani evet, 'her şeyi uçtan uca eğitebilirsiniz'. Tabii ki, biyomedikal araştırmalarda, sonuçlarınızın daha geniş bir popülasyonda genelleştirilebileceğini söylemeden önce, başka bir popülasyonda, başka bir veri setinde doğrulamak istersiniz. Başka bir yaklaşım, modelinizi çalışma popülasyonunuzun bir alt örneğinde çalıştırdığınız, daha sonra bu özneleri havuza geri koyduğunuz ve birçok kez (genellikle 1000 kez) tekrarladığınız bir önyükleme türü yaklaşım kullanmaktır. Önemli bir sonuç alırsanız, zamanın büyük bir çoğunluğu (örneğin, zamanın% 95'i), modelinizin onaylanmış olduğu kabul edilebilir - en azından kendi verilerinizde. Ama yine de, modelinizi çalıştırdığınız çalışma popülasyonu ne kadar küçükse, bazı öngörücülerin sonuç için istatistiksel olarak önemli risk faktörleri olması daha az olasıdır. Bu özellikle sınırlı sayıda katılımcıyla biyomedikal çalışmalar için geçerlidir.
Verilerinizin yarısını modelinizi 'eğitmek' için kullanmak ve daha sonra diğer yarısında 'doğrulamak' gereksiz bir yüktür. Bunu t-testleri veya doğrusal regresyon için yapmıyorsunuz, neden lojistik regresyonda yapıyorsunuz? Yapacağı en iyi şey, 'evet işe yarıyor' demenize izin vermek, ancak tam veri kümenizi kullanırsanız, yine de bunu belirlersiniz. Verilerinizi daha küçük veri kümelerine bölmek, küçük örneklem büyüklüğü, çalışma büyüklüğünüz için çok fazla öngörücüye sahip olma ve gerçekte mevcut olduklarında, çalışma popülasyonunda (VEYA doğrulama popülasyonu) önemli risk faktörlerini tespit etmeme riski taşır. 'doğrulama örneğinizin' şans eseri hiçbir ilişkilendirme göstermeyeceğini unutmayın. 'Tren sonra doğrula' yaklaşımının arkasındaki mantık, önemli olarak tanımladığınız risk faktörleri yeterince güçlü değilse, verilerinizin rasgele seçilen bir yarısına modellendiğinde istatistiksel olarak anlamlı olmazlar. Ancak rastgele seçilen bu örnek, tesadüfen veya risk faktörlerinin istatistiksel olarak anlamlı olmaması için çok küçük bir ilişki göstermeyebilir. Ancak, risk faktörlerinin büyüklüğü ve önemlerini belirleyen istatistiksel önemi ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. t Verilerinizin rastgele seçilen yarısına göre modellendiğinde istatistiksel olarak anlamlı değildir. Ancak rastgele seçilen bu örnek, tesadüfen veya risk faktörlerinin istatistiksel olarak anlamlı olmaması için çok küçük bir ilişki göstermeyebilir. Ancak, risk faktörlerinin büyüklüğü ve önemlerini belirleyen istatistiksel önemi ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. t Verilerinizin rastgele seçilen yarısına göre modellendiğinde istatistiksel olarak anlamlı değildir. Ancak rastgele seçilen bu örnek, tesadüfen veya risk faktörlerinin istatistiksel olarak anlamlı olmaması için çok küçük bir ilişki göstermeyebilir. Ancak, risk faktörlerinin büyüklüğü ve önemlerini belirleyen istatistiksel önemi ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. Ancak rastgele seçilen bu örnek, tesadüfen veya risk faktörlerinin istatistiksel olarak anlamlı olmaması için çok küçük bir ilişki göstermeyebilir. Ancak, risk faktörlerinin büyüklüğü ve önemlerini belirleyen istatistiksel önemi ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. Ancak rastgele seçilen bu örnek, tesadüfen veya risk faktörlerinin istatistiksel olarak anlamlı olmaması için çok küçük bir ilişki göstermeyebilir. Ancak, risk faktörlerinin büyüklüğü ve önemlerini belirleyen istatistiksel önemi ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. Risk faktörlerinin büyüklüğü ve önemini belirleyen istatistiksel önemleri ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır. Risk faktörlerinin büyüklüğü ve önemini belirleyen istatistiksel önemleri ve bu nedenle modelinizi oluşturmak için tam veri kümenizi kullanmak en iyisidir. İstatistiksel anlamlılık, çoğu istatistiksel testte olduğu gibi daha küçük örnek büyüklüklerinde daha az belirgin hale gelecektir. Lojistik regresyon yapmak, tıpkı istatistik bilimi kadar bir sanattır. Çalışma tasarımınıza bağlı olarak, farklı kullanım yaklaşımları ve optimize etmek için farklı parametreler vardır.