Doğrusal regresyon verilerim birkaç karma doğrusal ilişki içeriyorsa ne olur?

34

Diyelim ki nergislerin çeşitli toprak koşullarına nasıl tepki verdiğini inceliyorum. Toprağın pH'ı ve nergis olgunluğunun yüksekliğiyle ilgili veriler topladım. Doğrusal bir ilişki bekliyorum, bu yüzden doğrusal bir regresyon çalıştırmaya devam ediyorum.

Ancak, çalışmaya başladığımda, nüfusun aslında her birinin toprak pH'ına çok farklı tepki veren iki çeşit nergis içerdiğini fark etmedim. Yani grafik iki farklı doğrusal ilişki içeriyor:

Elbette göz küresini açıp elle ayırabilirim. Ama daha titiz bir yaklaşım olup olmadığını merak ediyorum.

Sorular:

Bir veri kümesinin tek bir satıra mı yoksa N satırına mı daha uygun olacağını belirlemek için istatistiksel bir test var mı?
N çizgisine uyacak şekilde lineer bir regresyon nasıl çalıştırabilirim? Başka bir deyişle, karışmış verileri nasıl çözerim?

Bazı kombinasyon yaklaşımlarını düşünebilirim, ancak hesaplama açısından pahalı görünüyorlar.

Açıklamalar:

Veri toplama zamanında iki türün varlığı bilinmiyordu. Her bir nergis çeşidi gözlenmemiş, not edilmemiş ve kaydedilmemiştir.
Bu bilgiyi kurtarmak imkansızdır. Nergis veri toplanmasından bu yana öldü.

Bu sorunun kümelenme algoritmaları uygulamasına benzer bir şey olduğu izlenimini edindim, çünkü başlamadan hemen önce küme sayısını bilmeniz gerekiyor. HERHANGİ bir veri setinde satır sayısını arttırmanın toplam rms hatasını azaltacağına inanıyorum. En uç noktadaki verilerinizi rasgele çiftlere ayırabilir ve her bir çift üzerinden bir çizgi çekebilirsiniz. (Örneğin, 1000 veri noktanız varsa, bunları 500 rastgele çifte bölebilir ve her bir çift boyunca bir çizgi çekebilirsiniz.) Uygunluk tam ve rms hatası tam olarak sıfır olacaktır. Ama istediğimiz bu değil. "Doğru" satır sayısını istiyoruz.

regression linear-model dataset

— SlowMagic
kaynak

1

ilgili istatistik.stackexchange.com/questions/245902/…

— rep_ho

3

Hangi dafodillerin hangileri olduğunu biliyor musunuz? Öyleyse, bu bilgileri modelinize

— ekleyebilirsiniz

1

Bu, @Demetri Pananos'un cevabında olduğu gibi, klasik bir istatistiksel etkileşim durumu gibi görünüyor.

— rolando2,

2

Çiçeğin verilerinde hangi çeşitlilik olduğuna dair bilgi sahibi olmadıkları hissine kapılıyorum. Buna sahip olsaydı, bunun sadece bir etkileşim modeli oluşturma ya da her çeşit için ayrı ayrı regresyon yapma durumu olacağına katılıyorum. Ancak, eğer bu bilgiye sahip değillerse bütün umutlar kaybolmaz. Biri yalnızca ayrı çizgileri değil, her bir gözlemin her iki gruba ait olma olasılığını da öngören bir model oluşturabilir.

— Dason

1

@DemetriPananos Umarım anlamlı bir cevap verdim. Ne yapmak istediklerine bağlı olarak bu biraz daha fazla iş. Bir çeşit test yapmak için bir olasılık oranı testi yapmanız veya bir tür rasgele test veya başka bir şey yapmanız gerekir. Ancak bize çok fazla bilgi vermediler ve amaç yalnızca çizgilere uymaksa ve etiketleri yoksa, mixtools paketini kullanarak yapmak çok da kötü değil.

— Dason

31

Bence Demetri'nin cevabı, farklı çeşitler için etiketlere sahip olduğunuzu varsayarsak harika bir cevaptır. Sorunuzu okuduğumda bana durum böyle değildi. Demetri'nin önerdiği modele uyum sağlamak için EM algoritmasına dayalı bir yaklaşım kullanabiliriz ancak çeşitlilik için etiketleri bilmeden. Neyse ki R'deki mixtools paketi bizim için bu işlevi sağlıyor. Verileriniz tamamen birbirinden ayrıldığından ve oldukça fazla göründüğünden, oldukça başarılı olmalıdır.

library(mixtools)

# Generate some fake data that looks kind of like yours
n1 <- 150
ph1 = runif(n1, 5.1, 7.8)
y1 <- 41.55 + 5.185*ph1 + rnorm(n1, 0, .25)

n2 <- 150
ph2 <- runif(n2, 5.3, 8)
y2 <- 65.14 + 1.48148*ph2 + rnorm(n2, 0, 0.25)

# There are definitely better ways to do all of this but oh well
dat <- data.frame(ph = c(ph1, ph2), 
                  y = c(y1, y2), 
                  group = rep(c(1,2), times = c(n1, n2)))

# Looks about right
plot(dat$ph, dat$y)

# Fit the regression. One line for each component. This defaults
# to assuming there are two underlying groups/components in the data
out <- regmixEM(y = dat$y, x = dat$ph, addintercept = T)

Sonuçları inceleyebiliriz

> summary(out)
summary of regmixEM object:
          comp 1    comp 2
lambda  0.497393  0.502607
sigma   0.248649  0.231388
beta1  64.655578 41.514342
beta2   1.557906  5.190076
loglik at estimate:  -182.4186

Bu yüzden iki regresyona uyuyor ve gözlemlerin% 49.7'sinin bileşen 1 için regresyona düştüğünü ve% 50.2'nin bileşen 2 için regresyona düştüğünü tahmin ediyor.

Simülasyon için kullandığım 'true' değerleri satırları vermelidir:

y = 41.55 + 5.185 * ph ve y = 65.14 + 1.48148 * ph

(ki, yarattığım veriler kendinize benzeyecek şekilde arsadan 'elle' tahmin ettim) ve EM algoritmasının bu durumda verdiği çizgiler:

y = 41.514 + 5.19 * ph ve y = 64.655 + 1.55 * ph

Gerçek değerlere oldukça yakın.

Takılan çizgileri verilerle birlikte çizebiliriz

plot(dat$ph, dat$y, xlab = "Soil Ph", ylab = "Flower Height (cm)")
abline(out$beta[,1], col = "blue") # plot the first fitted line
abline(out$beta[,2], col = "red") # plot the second fitted line

— Dason
kaynak

21

EDIT: Başlangıçta OP'nin hangi türden hangi gözlemlerin geldiğini bildiğini düşündüm. OP’nin düzenlemesi benim orijinal yaklaşımımın mümkün olmadığını açıkça göstermektedir. Gelecek nesiller için bırakacağım, ancak diğer cevap çok daha iyi. Teselli olarak, Stan'de bir karışım modeli kodladım. Bu durumda bir Bayesian yaklaşımının özellikle iyi olduğunu söylemiyorum, ancak katkıda bulunabileceğim zarif bir şey.

Stan Kodu

data{

  //Number of data points
  int N; 

  real y[N];
  real x[N];
}
parameters{
  //mixing parameter
  real<lower=0, upper =1>  theta;

  //Regression intercepts
  real beta_0[2];

  //Regression slopes.
  ordered[2] beta_1;

  //Regression noise
  real<lower=0> sigma[2];
}
model{

  //priors
  theta ~ beta(5,5);
  beta_0 ~ normal(0,1);
  beta_1 ~ normal(0,1);
  sigma ~ cauchy(0,2.5);

  //mixture likelihood
  for (n in 1:N){
    target+=log_mix(theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));
  }
}
generated quantities {
  //posterior predictive distribution
  //will allow us to see what points belong are assigned
  //to which mixture 
  matrix[N,2] p;
  matrix[N,2] ps;
  for (n in 1:N){
    p[n,1] = log_mix(theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));

    p[n,2]= log_mix(1-theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));

    ps[n,]= p[n,]/sum(p[n,]);
  }
}

Stan Modelini R'den Çalıştırın

library(tidyverse)
library(rstan)


#Simulate the data
N = 100
x = rnorm(N, 0, 3)
group = factor(sample(c('a','b'),size = N, replace = T))

y = model.matrix(~x*group)%*% c(0,1,0,2) 
y = as.numeric(y) + rnorm(N)

d = data_frame(x = x, y = y)

d %>% 
  ggplot(aes(x,y))+
  geom_point()

#Fit the model
N = length(x)
x = as.numeric(x)
y = y

fit = stan('mixmodel.stan', 
           data = list(N= N, x = x, y = y),
           chains = 8,
           iter = 4000)

Sonuçlar

Kesik çizgiler temel doğrudur, düz çizgiler tahmin edilir.

Orijinal cevap

Hangi numunenin hangi nergis türünden geldiğini biliyorsanız, çeşitlilik ile PH arasındaki etkileşimi tahmin edebilirsiniz.

Modeliniz benzeyecek

y = β_{0} + β_{1} variety + β_{2} PH + β_{3} variety \cdot PH

$y = \beta_0 + \beta_1 \text{variety} + \beta_2\text{PH} + \beta_3\text{variety}\cdot\text{PH}$

İşte R'deki bir örnek: Buna benzeyen bazı veriler oluşturdum:

Açıkça iki farklı çizgi ve çizgiler iki türe karşılık geliyor. Doğrusal regresyon kullanarak çizgilerin nasıl tahmin edileceği

library(tidyverse)

#Simulate the data
N = 1000
ph = runif(N,5,8)
species = rbinom(N,1,0.5)

y = model.matrix(~ph*species)%*% c(20,1,20,-3) + rnorm(N, 0, 0.5)
y = as.numeric(y)

d = data_frame(ph = ph, species = species, y = y)

#Estimate the model
model = lm(y~species*ph, data = d)
summary(model)

Ve sonuç

> summary(model)

Call:
lm(formula = y ~ species * ph, data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.61884 -0.31976 -0.00226  0.33521  1.46428 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 19.85850    0.17484  113.58   <2e-16 ***
species     20.31363    0.24626   82.49   <2e-16 ***
ph           1.01599    0.02671   38.04   <2e-16 ***
species:ph  -3.03174    0.03756  -80.72   <2e-16 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4997 on 996 degrees of freedom
Multiple R-squared:  0.8844,    Adjusted R-squared:  0.8841 
F-statistic:  2541 on 3 and 996 DF,  p-value: < 2.2e-16

0 etiketli türler için satır yaklaşık

y = 19 + 1 \cdot PH

$y = 19 + 1\cdot \text{PH}$

1 etiketli türler için satır yaklaşık

y = 40 - 2 \cdot PH

$y = 40 - 2 \cdot \text{PH}$

— Demetri Pananos
kaynak

OP, çeşitli nergis çeşitlerini önceden biliyorsa, neden verileri iki bölüme ayıramazlar ve her çeşit için iki ayrı regresyon uygulayamıyorlar?

— Akavall

OP, nergis çeşitleri arasındaki farklarla ilgilenmiyorsa (örneğin, 1. çeşit, toprak PH'da şartlandırılmış 2. çeşitten daha uzun boylu mu büyür), o zaman kesinliği çevreleyen argümanlar dışında, tüm verileri birlikte gerilemek için bir neden yoktur.

— Demetri Pananos

@Akavail - Verileri bölebilirler ancak bu şekilde çalıştırılması, çeşitler arasındaki farklarla ilgili herhangi bir hipotezi test etmekle ilgileniyorlarsa, herhangi bir karşılaştırma yapmayı kolaylaştırır. Kombine çalıştırılması aynı zamanda eşit sapma varsayımının geçerli olması durumunda biraz daha iyi tahminlerde bulunacaktır.

— Dason

1

EM yaklaşımına bakmadan önce Bayesian yaklaşımını düşündüm. Ama bayesyen işleri yapma biçimimden hoşlandığım kadarıyla tembel oldum ve sadece EM yaklaşımını benimsemek çok daha kolay. Bununla birlikte, bir Bayesian analizini çok tercih ettiğimi ve soruları takip etmeyi çok daha kolay hale getirdiğini düşünüyorum - ilk modeli kodlarken daha zor zamanlar geçirebilirsiniz, ancak bir kez yaptığınızda, soruları cevaplamak çok daha kolay olabilir. posterior dağılım

— Dason

2

İstatistiksel yaklaşım, yukarıdaki cevabın ikisine çok benzer, ancak daha önceden bilgi sahibi değilseniz, gizli sınıfların sayısının nasıl seçileceği ile biraz daha ilgilenir. Gizli sınıf sayısını seçerken bilgi ölçütlerini veya paraziti kılavuz olarak kullanabilirsiniz.

2-4 gizli sınıf / bileşen içeren bir sonlu karışım modelleri dizisini (FMM'ler) kullanan bir Stata örneği. İlk tablo, gizli sınıf üyeliğinin katsayılarıdır. Bunları yorumlaması biraz zor, ama sonradan olasılıklara dönüştürülebilir estat lcprob. Her sınıf için, ayrıca bir gizli yol ve bir ph eğim parametresi, ardından gizli sınıf marjinal olasılıklar ve iki örneklem içi IC elde edilir. Bu katsayı tahminleri, doğrusal bir regresyon modelindeki katsayılar olarak yorumlanır. Burada en küçük örneklemeli BIC size iki bileşenli modeli en iyi model olarak seçmenizi söyler. AIC garip bir şekilde 3 bileşen modelini seçer. Ayrıca kullanabilirsiniz dışı numune IC almak veya çapraz doğrulama kullanmak.

Verileri çok fazla zorladığınızı ölçmenin başka bir yolu da, son sınıf payının çok küçük olmasıdır, çünkü ek bir bileşenler, verilerdeki aykırı değerlerin varlığını yansıtıyor olabilir. Bu durumda, parazit, modeli basitleştirmeyi ve bileşenleri kaldırmayı tercih eder. Ancak, ortamınızda küçük sınıfların mümkün olduğunu düşünüyorsanız, bu kömür madeninde kanarya olmayabilir. Buradaki parsimony, 2 sınıf modeli tercih eder çünkü üçüncü sınıf sadece gözlem içermektedir. $.0143313 \cdot 300 \approx 4$

Sınıflar daha az net ise, FMM yaklaşımı pratikte her zaman bu kadar iyi çalışmayacaktır. Özellikle yeterli veriye sahip değilseniz veya olabilirlik işlevinde birden fazla yerel maksimum değer varsa, çok fazla gizli sınıfla hesaplama zorluklarıyla karşılaşabilirsiniz.

. clear

. /* Fake Data */
. set seed 10011979

. set obs 300
number of observations (_N) was 0, now 300

. gen     ph = runiform(5.1, 7.8) in 1/150
(150 missing values generated)

. replace ph = runiform(5.3, 8)   in 151/300
(150 real changes made)

. gen y      = 41.55 + 5.185*ph   + rnormal(0, .25)  in 1/150
(150 missing values generated)

. replace y  = 65.14 + 1.48148*ph + rnormal(0, 0.25) in 151/300
(150 real changes made)

. 
. /* 2 Component FMM */
. fmm 2, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood =  -194.5215

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |   .0034359   .1220066     0.03   0.978    -.2356927    .2425645
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173137   .0251922   205.35   0.000     5.123761    5.222513
       _cons |     41.654   .1622011   256.80   0.000      41.3361    41.97191
-------------+----------------------------------------------------------------
     var(e.y)|   .0619599   .0076322                      .0486698     .078879
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.486062    .026488    56.10   0.000     1.434147    1.537978
       _cons |   65.10664   .1789922   363.74   0.000     64.75582    65.45746
-------------+----------------------------------------------------------------
     var(e.y)|   .0630583   .0075271                      .0499042    .0796797
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |    .499141   .0305016      .4396545    .5586519
          2  |    .500859   .0305016      .4413481    .5603455
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -194.5215       7     403.043   428.9695
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

. 
. /* 3 Component FMM */
. fmm 3, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood =  -187.4824

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |  -.0312504    .123099    -0.25   0.800    -.2725199    .2100192
-------------+----------------------------------------------------------------
3.Class      |
       _cons |  -3.553227   .5246159    -6.77   0.000    -4.581456   -2.524999
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173077   .0252246   205.08   0.000     5.123637    5.222516
       _cons |   41.65412     .16241   256.48   0.000      41.3358    41.97243
-------------+----------------------------------------------------------------
     var(e.y)|   .0621157   .0076595                      .0487797    .0790975
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.476049   .0257958    57.22   0.000      1.42549    1.526608
       _cons |   65.18698   .1745018   373.56   0.000     64.84496    65.52899
-------------+----------------------------------------------------------------
     var(e.y)|   .0578413   .0070774                      .0455078    .0735173
------------------------------------------------------------------------------

Class          : 3
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.776746   .0020074   885.09   0.000     1.772811     1.78068
       _cons |   62.76633   .0134072  4681.54   0.000     62.74005    62.79261
-------------+----------------------------------------------------------------
     var(e.y)|   9.36e-06   6.85e-06                      2.23e-06    .0000392
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |   .5005343   .0304855      .4410591    .5599944
          2  |   .4851343   .0306119      .4256343    .5450587
          3  |   .0143313   .0073775      .0051968     .038894
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -187.4824      11    396.9648   437.7064
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

. 
. /* 4 Component FMM */
. fmm 4, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood = -188.06042

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |  -.6450345   .5853396    -1.10   0.270    -1.792279      .50221
-------------+----------------------------------------------------------------
3.Class      |
       _cons |  -.8026907   .6794755    -1.18   0.237    -2.134438    .5290568
-------------+----------------------------------------------------------------
4.Class      |
       _cons |  -3.484714   .5548643    -6.28   0.000    -4.572229     -2.3972
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173031   .0251474   205.71   0.000     5.123743    5.222319
       _cons |   41.65574    .161938   257.23   0.000     41.33835    41.97313
-------------+----------------------------------------------------------------
     var(e.y)|   .0617238   .0076596                      .0483975    .0787195
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.503764   .0371216    40.51   0.000     1.431007    1.576521
       _cons |   65.13498   .2666049   244.31   0.000     64.61244    65.65751
-------------+----------------------------------------------------------------
     var(e.y)|   .0387473   .0188853                      .0149062    .1007195
------------------------------------------------------------------------------

Class          : 3
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.441334   .0443892    32.47   0.000     1.354333    1.528335
       _cons |   65.26791   .2765801   235.98   0.000     64.72582       65.81
-------------+----------------------------------------------------------------
     var(e.y)|   .0307352    .010982                      .0152578    .0619127
------------------------------------------------------------------------------

Class          : 4
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.665207   .0079194   210.27   0.000     1.649685    1.680728
       _cons |   63.42577   .0510052  1243.52   0.000      63.3258    63.52573
-------------+----------------------------------------------------------------
     var(e.y)|    .000096   .0000769                        .00002    .0004611
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |   .4991443   .0304808      .4396979     .558615
          2  |   .2618733   .1506066      .0715338    .6203076
          3  |   .2236773    .150279      .0501835    .6110804
          4  |    .015305    .008329       .005234    .0438994
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -188.0604      15    406.1208   461.6776
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

— Dimitriy V. Masterov
kaynak

Bu çok ilginç cevap için teşekkür ederim. Araştırma için bana yeni kavramlar verdin!

— SlowMagic

0

Dason zaten modelleme bölümünü kapsadığından beri istatistiksel olarak önemli olan soruya odaklanacağım.

Bunun için herhangi bir resmi teste aşina değilim (ki eminim var), bu yüzden sadece bazı fikirler ortaya koyacağım (ve muhtemelen daha sonra R kodu ve teknik detaylar ekleyeceğim).

İlk olarak, sınıfları çıkarım yapmak uygundur. Verilere uygun iki çizginiz olduğunu varsayarsak, her noktayı en yakın çizginin sınıfına atayarak yaklaşık iki sınıfı yeniden yapılandırabilirsiniz. Kesişme noktalarına yakın noktalar için sorunlara maruz kalacaksınız, ancak şimdilik sadece bunları görmezden gelin (bunun üstesinden gelmenin bir yolu olabilir, ama şimdilik bunun sadece bunun çok fazla değişmeyeceğini umuyoruz).

$x_{l}$ $x_{r}$ $x_{l} \leq x_{r}$ $x_{l}$ $x_{r}$

O zaman bunu yapmamın iki doğal yolu var.

Daha az eğlenceli yol, asıl veri kümenizi, çıkarılan sınıf etiketleriyle birleştirerek Demetri'nin cevabında olduğu gibi doğrusal bir regresyonla çalıştırmaktır.

Bunu yapmanın daha ilginç bir yolu, ANOVA'nın değiştirilmiş bir versiyonudur. Mesele, iki çizgiyi temsil eden yapay bir veri seti oluşturmaktır (aralarındaki benzer yayılıma sahip) ve sonra ANOVA'yı uygular. Teknik olarak, bunu bir kez sol taraf için ve bir kez sağ için yapmanız gerekir (yani iki yapay veri setine sahip olacaksınız).

y_{1}^{(ben)} = β_{1, 1} x_{1}^{(ben)} + β_{1, 0} + e_{1}^{(ben)}

$y^{(i)}_{1} = \beta_{1,1} x_{1}^{(i)} + \beta_{1,0} + e_{1}^{(i)}$

β_{1, 1} x_{1}^{(i)} + β_{1, 0}

$\beta_{1,1} x_{1}^{(i)} + \beta_{1,0}$

β_{1, 1} x^{bir v g} + β_{1, 0}

$\beta_{1,1} x^{\mathrm{avg}} + \beta_{1, 0}$

x_{l}^{a v g}

$x^{\mathrm{avg}}_{l}$

x

$x$

y_{1}^{(i)}

$y_{1}^{(i)}$

{\tilde{y}}_{1}^{(ben)} = β_{1, 1} x^{bir v g} + β_{1, 0} + e_{1}^{(ben)},

$\tilde{y}_{1}^{(i)} = \beta_{1,1} x^{\mathrm{avg}} + \beta_{1, 0} + e_{1}^{(i)},$

{\tilde{y}}_{1}^{(i)}

$\tilde{y}_{1}^{(i)}$

{\tilde{y}}_{2}^{(i)}

$\tilde{y}_{2}^{(i)}$

$N$

— Jacob Maibach
kaynak

-2

Her ikisini de aynı çizelgeye dahil etmek bir hata olabilir mi? Çeşitlerin tamamen farklı davrandığı göz önüne alındığında, verilerin üst üste binmesinde bir değer var mı? Bana göre, benzer ortamların farklı nergisler üzerindeki etkilerini değil, bir nergis türünü etkiliyorsunuz. "A" türünün "B" türünden belirlenmesine yardımcı olan verileri kaybettiyseniz, "A" davranışını ve "B" davranışını gruplandırabilir ve anlatınıza iki türün keşfini dahil edebilirsiniz. Veya, gerçekten bir grafik istiyorsanız, sadece aynı eksende iki veri seti kullanın. Verilen diğer cevaplarda gördüğüm uzmanlığa yakın bir yerim yok, bu yüzden daha az "yetenekli" yöntemler bulmalıyım. Denklemlerin geliştirilmesinin daha kolay olduğu bir çalışma ortamında ortamda veri analizi yapardım. Sonra, Gruplamalar netleştiğinde, iki ayrı veri tablosu hazırlayın ve ardından bunları çizelge / grafiklere dönüştürün. Çok fazla veriyle çalışıyorum ve genellikle farklı korelasyonlar varsayımlarımın yanlış gittiğini; Bu, keşfetmemize yardımcı olması için gereken veridir. Varsayımlarımın yanlış olduğunu öğrendikten sonra, bu davranışları keşfedilen davranışlara ve bu davranışları tartışarak verilere ve sonuçların anlatımın bir parçası olarak istatistiksel analizlere dayanarak veriyorum.

— KBKIA
kaynak

1

Cevabınız, soruya cevaben herhangi bir açıklık ya da içgörü sağlamadığı için reddedilmiş olduğunuza inanıyorum. Cevabınızı daha faydalı bir şekilde yapılandırmanız ve her noktada hangi alt soruları ele aldığınızı netleştirmeniz gerekir. Soru, cevaplar arasında ve cevabınızdan önce, çeşitli bilgilerin kurtarılamadığını açıkça belirtmek için güncellendi.

— ReneBt

2

Doğrulanmış Cross'a Hoşgeldiniz! Lütfen ilk cevabınızın çok iyi karşılanmaması nedeniyle ertelenmeyin - ve daha basit çözümler çok faydalı olabilir - ancak soru sorucu zaten "Göz küresini tutabilirim ve elbette manuel olarak ayırabilirim" ifadesiyle göründüğü gibi çok ekliyor olmalısın.

— Scortchi - Monica'yı yeniden kurun