İyi performansların çizgilere girip girmediğini nasıl anlarsınız?

10

Rubik küplerini hobi olarak çözüyorum. Bazı yazılımları kullanarak küpü çözmemin zamanını kaydediyorum ve şimdi binlerce çözücüden verilerim var. Veriler temel olarak her ardışık çözümün aldığı süreyi temsil eden uzun bir sayı listesidir (örn. 22.11, 20.66, 21.00, 18.74, ...)

Küpü çözmem için gereken zaman doğal olarak çözmekten çözüme biraz değişir, bu nedenle iyi çözmeler ve kötü çözmeler vardır.

"Isınıp ısınmadığımı" bilmek istiyorum - iyi çözücülerin çizgilerle gelip gelmediği. Örneğin, birkaç ardışık iyi çözümüm varsa, bir sonraki çözümümün iyi olması daha olası mıdır?

Ne tür bir analiz uygun olur? Yapılması gereken birkaç spesifik şey düşünebilirim, örneğin çözücüleri bir Markov süreci olarak ele almak ve bir çözümün bir sonrakini ne kadar iyi öngördüğünü görmek ve rastgele verilerle karşılaştırmak, ardışık en uzun çizgilerin medyanın altında ne kadar süre kaldığını görmek 100 ve rasgele verilerde beklenebilecek şeylerle karşılaştırılıyor. Bu testlerin ne kadar içgörülü olacağından emin değilim ve bu tür bir soruna iyi gelişmiş yaklaşımlar olup olmadığını merak ediyorum.

probability

— Mark Eichenlaub
kaynak

8

Tekrarlama sınaması bir "run" bir "çizgi" olarak adlandırılan şeydir olası bir aday, gibi görünüyor. İkili veri gerektirir, bu nedenle her bir çözümü bir eşik değerine göre "kötü" ve "iyi" olarak etiketlemeniz gerekir - önerdiğiniz ortalama süre gibi. Sıfır hipotezi, "iyi" ve "kötü" çözümlerin rasgele değiştiğidir. Sezginize karşılık gelen tek taraflı alternatif bir hipotez, "iyi" nin uzun çizgilerde kümelenmeyi bir araya getirerek rastgele verilerle beklenenden daha az çalışma olduğunu gösterir. Test istatistiği koşu sayısıdır. R cinsinden:

> N      <- 200                          # number of solves
> DV     <- round(runif(N, 15, 30), 1)   # simulate some uniform data
> thresh <- median(DV)                   # threshold for binary classification

# do the binary classification
> DVfac <- cut(DV, breaks=c(-Inf, thresh, Inf), labels=c("good", "bad"))
> Nj    <- table(DVfac)                  # number of "good" and "bad" solves
> n1    <- Nj[1]                         # number of "good" solves
> n2    <- Nj[2]                         # number of "bad" solves
> (runs <- rle(as.character(DVfac)))     # analysis of runs
Run Length Encoding
lengths: int [1:92] 2 1 2 4 1 4 3 4 2 5 ...
values : chr [1:92] "bad" "good" "bad" "good" "bad" "good" "bad" ...

> (nRuns <- length(runs$lengths))        # test statistic: observed number of runs
[1] 92

# theoretical maximum of runs for given n1, n2
> (rMax <- ifelse(n1 == n2, N, 2*min(n1, n2) + 1))
199

Yalnızca birkaç gözleminiz olduğunda, sıfır hipotezi altındaki her bir koşu sayısı için kesin olasılıkları hesaplayabilirsiniz. Aksi takdirde, "çalışma sayısı" nın dağılımı standart normal dağılımla yaklaşık olarak tahmin edilebilir.

> (muR  <- 1 + ((2*n1*n2) / N))                     # expected value
100.99 

> varR  <- (2*n1*n2*(2*n1*n2 - N)) / (N^2 * (N-1))  # theoretical variance
> rZ    <- (nRuns-muR) / sqrt(varR)                 # z-score
> (pVal <- pnorm(rZ, mean=0, sd=1))                 # one-sided p-value
0.1012055

P-değeri, "iyi" çözümlerin çizgiler halinde geldiği tek taraflı alternatif hipotez içindir.

— karakulak
kaynak

3

Mükemmel cevap. Ancak, sürekli bir değişkeni ikili değişkene dönüştürmek konusunda isteksiz olurum. Bir çok anlamlı değişkenlik kaybedilecekti.

— Jeromy Anglim

@jeromy - bu genel olarak iyi bir nokta, ama bu özel soru için görünüyor, binning çok fazla bilgi atmıyor - özellikle "iyi" ve "kötü" sadece soruda bir ikilik olarak tanımlandığı için, sürekli.

— olasılık

@probabilityislogic @mark'ın, çözüm süresinin hangi eşik değerine bağlı olarak çözüm süresini "iyi" veya "kötü" olarak işleyebileceğini anlıyorum. Bununla birlikte, eşik nerede olursa olsun, kesinlikle biraz keyfi. Eşik 5 dakika olsaydı, kesinlikle 5 dakika ve 1 saniye "iyilik" ten 4 dakika 59 saniyeden fazla farklılık göstermezdi. "İyi" ve "kötü" nin sürekli tamamlanma süresi ile ilgili bulanık kategoriler olduğunu düşünüyorum.

— Jeromy Anglim

Ancak, "iyi" ve "kötü" ifadelerinin herhangi bir tanımı keyfidir - bu kelimelerin göreceli doğası nedeniyle. "Verilerin" belirsizliği çözmesine izin verip vermemeniz veya kendiniz çözüp çözmemeniz, bunu az çok belirsiz yapmaz. Ve böyle keskin bir ayrımın yapılması gerekebilir - bir yarışmada final için hak kazanmak için 5 dakikadan az zamana ihtiyacınız varsa. Eminim hakimin "" hak kazanma süresinin dışında sadece 2 saniye olduğunu "söyleyemeyeceğim

— olasılık

5

Birkaç düşünce:

Zaman dağılımını çizin. Benim tahminim, bazı çarpışma sürelerinin gerçekten yavaş olması için olumlu çarpıklık yapacaklarıdır. Bu durumda, bir günlüğü veya çözüm sürelerinin başka bir dönüşümünü düşünmek isteyebilirsiniz.
X ekseni ve çözüm süresi (veya y ekseninde günlük çözüm süresi) üzerinde deneme dağılımının bir dağılım grafiğini oluşturun. Bu, verilerin sezgisel bir şekilde anlaşılmasını sağlamalıdır. Ayrıca "sıcak çizgi" nin yanı sıra diğer eğilimleri de ortaya çıkarabilir.
Zaman içinde bir öğrenme etkisi olup olmadığını düşünün. Çoğu bulmaca ile, pratik ile daha hızlı olsun. Arsa, durumun bu olup olmadığını ortaya çıkarmaya yardımcı olmalıdır. Böyle bir etki, "sıcak çizgi" etkisinden farklıdır. İlk öğrenirken, yavaş denemeler diğer yavaş denemelerle birlikte gerçekleşecek ve daha deneyimli hale geldikçe, daha hızlı denemelerle daha hızlı denemeler gerçekleşecektir.
"Sıcak çizgiler" ile ilgili kavramsal tanımınızı düşünün. Örneğin, yalnızca zamanında yakın olan veya siparişin yakınlığıyla ilgili denemeler için mi geçerlidir? Diyelim ki küpü Salı günü hızlı bir şekilde çözdün ve sonra bir mola verdin ve ertesi Cuma günü hızlı bir şekilde çözdün. Bu sıcak bir çizgi mi, yoksa sadece aynı gün yaparsanız sayılır mı?
Sıcak çizgi etkisinden farklı olabilecek başka efektler var mı? Örneğin, bulmacayı çözdüğünüz günün saati (örneğin, yorgunluk), gerçekten ne kadar uğraştığınız? vb.
Alternatif sistematik etkiler anlaşıldıktan sonra, mümkün olduğunca çoğunu içeren bir model geliştirebilirsiniz. Kalıntıyı y ekseninde çizebilir ve x ekseninde deneme yapabilirsiniz. Ardından modeldeki artıklarda otomatik korelasyon olup olmadığını görebilirsiniz. Bu oto-korelasyon sıcak çizgiler hakkında bazı kanıtlar sağlayacaktır. Bununla birlikte, alternatif bir yorum, dışlamadığınız başka bir sistematik etkinin olmasıdır.

— Jeromy Anglim
kaynak

Sistematik kısım için +1. Bu durumda performanstaki değişimlerin en iyi açıklaması olduğunu düşünüyorum.

— mpiktas

2

araştırmacıların bu soruyu nasıl araştırdıklarına bakmak isteyebilir. Bir klasik Gilovich, T., Vallone, R. ve Tversky, A., Basketbolda sıcak el: Rastgele dizilerin yanlış algılanması üzerine. Bilişsel Psikoloji 17, 295-314 (1985).

— dmk38

2

İşleminiz için korelogram hesaplayın . İşleminiz gaussiyse (örneğinizin görünüşüne göre) alt / üst sınırlar (B) oluşturabilir ve belirli bir gecikmedeki korelasyonların önemli olup olmadığını kontrol edebilirsiniz. Gecikme 1'deki pozitif otokorelasyon "şans çizgileri" nin varlığına işaret eder.

2

Pozitif otokorelasyon, öğrenme süreci gibi diğer sistematik etkilerden de kaynaklanabilir. Oto-korelasyonu "sıcak çizgi" nin kanıtı olarak yorumlamadan önce bu tür etkileri ortadan kaldırmanın önemli olduğunu düşünüyorum.

— Jeromy Anglim