Zaman serileri için lojistik regresyon


21

Geçmişteki gözlemler göz önüne alındığında, verinin bağımlı değişkeninin (yani satırın) bağımlı değişkeninin değerini tahmin etmek amacıyla akış verileri (çok boyutlu zaman serileri) bağlamında ikili bir lojistik regresyon modeli kullanmak istiyorum. Bildiğim kadarıyla, lojistik regresyon geleneksel olarak, her bir bağımlı değişkenin önceden ayarlanmış olduğu postmortem analiz için kullanılır (inceleme veya araştırmanın niteliği ile).

Ne var ki, zaman serileri söz konusu olduğunda, tarihsel değişkenler (örneğin, son saniyenin bir zaman penceresinde ) ve tabii ki, önceki değişkenler hakkında bağımlı değişken hakkında tahmin yapmak istediğimiz (anında) bağımlı değişken tahminleri?t

Ve eğer yukarıdaki sistemi zaman içerisinde görürseniz, regresyonun çalışması için nasıl yapılmalıdır? İlk önce, verilerimizin ilk 50 sırasını etiketleyerek, yani, yani bağımlı değişkeni 0 veya 1 olarak ayarlayarak) etiketlemeli ve sonra bağımlı değişkenlerin yeni olasılığını tahmin etmek için vektörünün geçerli tahminini kullanmalı mıyız? Yeni gelen veriler için 0 veya 1 (yani sisteme yeni eklenen yeni satır)?β

Sorunumu daha açık hale getirmek için, veri kümesini satır satır ayrıştıran ve önceki tüm bağımlı veya açıklayıcıların bilgisi (gözlem veya tahmini) göz önüne alındığında, ikili bir sonucun (bağımlı değişken) tahminini yapmaya çalışan bir sistem kurmaya çalışıyorum Sabit bir zaman penceresine ulaşan değişkenler. Sistemim Rerl'de ve çıkarım için R'yi kullanıyor.


5
Verileriniz üzerinde bir korelasyon yapısını varsayabilir misiniz? Davanız logit bağlantılı özel bir GLMM örneğidir, ancak zaman serisi verilerindeki korelasyon yapısı makul bir cevap alabilmek için doğru bir şekilde modellenmelidir.
suncoolsu

1
ytyt-1

2
Somut bir çözüm bulmam için lütfen verilerinizin kısa bir tanımını verebilir misiniz? Sorununuz bu gibi bir şey çözülebilir stat.ethz.ch/pipermail/r-sig-mixed-models/2010q4/004530.html
suncoolsu

2
Aşağıdaki biçimde bir ağ trafiği zaman serisine sahibim: Protokol, SrcIP SrcPort, DestIP, DestPort, TimeSec, Timeusec, PackLength TCP, 200.80.199.105,3523,207.216.233.144,9658,11223344,941818,62 UDP, 142.144.155.120.120 , 1751, 244.72.151.2, 1935, 11223344,941843,60 Kendi kendini eğiten bir model oluşturmak için etiketli veri kümelerindeki bilgileri kullanarak bir paketin (veya paket grubunun) kötü amaçlı olup olmadığını tahmin etmek istiyorum. Bahsettiğim ortalama, bir miktar toplanma sağlamak ve sistemi yüksek hacimli trafik için daha pratik hale getirmek için yukarıdaki metriklerde uygulanır.
Regressor,

2
Bu gerçekten bir destek vektör makinesi için bir iş gibi geliyor. Bir şey mi eksik? Otomatik korelasyon veya verilerinizin zaman serisi yapısı hakkında gerçekten endişeleniyorsanız, ARIMA ve / veya çok düzeyli bir boyuna model deneyebilirsiniz. Boyuna modellerde, UCLA ATS sahasının R kodu örnekleri olan Willet ve Singer'in Uygulamalı Boyuna Veri Analizini öneririm .
Ashaw

Yanıtlar:


6

Dikkate alınması gereken iki yöntem vardır:

  1. Sadece son N giriş numunesini kullanın. Giriş sinyalinizin D boyutunda olduğunu varsayalım, o zaman her bir toprak gerçeği etiketi için N * D örnekleri vardır. Bu şekilde, lojistik regresyon dahil, istediğiniz sınıflandırıcıyı kullanarak eğitim alabilirsiniz. Bu şekilde, her bir çıktı diğer tüm çıktılardan bağımsız olarak kabul edilir.

  2. Son N giriş örneklerini ve ürettiğiniz son N çıkışlarını kullanın. Sorun daha sonra viterbi kod çözme işlemine benzer . Girdi örneklerine dayalı olarak ikili olmayan bir puan oluşturabilir ve bir viterbi kod çözücüyü kullanarak birden fazla örneğin puanını birleştirebilirsiniz. Bu, yöntem 1'den daha iyidir. Eğer şimdi çıktılar arasındaki zamansal ilişki hakkında bir şeyler varsa.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.