İstatistiksel modellemeye başlamak için ipuçları ve püf noktaları?


10

Veri madenciliği alanında çalışıyorum ve istatistik konusunda çok az resmi eğitim aldım. Son zamanlarda çok ilginç bulduğum öğrenme ve madencilik için Bayesci paradigmalara odaklanan çok fazla iş okuyorum.

Benim sorum (birkaç kısımda), bir problem göz önüne alındığında, istatistiksel bir model oluşturmanın mümkün olduğu genel bir çerçeve var mı? Temel süreci modellemek istediğiniz bir veri kümesi verildiğinde ilk yaptığınız şeyler nelerdir? Bu süreci açıklayan iyi kitaplar / eğiticiler var mı yoksa deneyim meselesi mi? Modelinizi oluştururken zihninizin ön planında çıkarım mı var yoksa ilk olarak, verileri hesaplamak için nasıl kullanacağınız konusunda endişelenmeden önce verileri tanımlamayı amaçlıyor musunuz?

Herhangi bir fikir büyük mutluluk duyacağız! Teşekkürler.


4
Merhaba Nick - CV'ye hoş geldiniz. Sorunuz çok geniş; daha küçük sorulara böldüğünüzde iyi yanıtlar almakta daha iyi şansınız olabilir (ve bunu yaptıktan sonra, bazılarının burada zaten cevaplanmış olduğunu görebilirsiniz). En azından sorunuzu "topluluk wiki" olarak işaretlemelisiniz. Bu, temelde buradaki alışılmış cevaplar formatı yerine, tüm cevapların bir bütün olarak Cevap olarak kabul edileceği anlamına gelir.
Matt Parker

1
@Matt Artık bir soru için CW onay kutusu görünmüyor. Bir modun bir soruyu gerektiği gibi CW olarak işaretlemesi gerekir.

@ Nick .. Ben de yeniyim. Bence genel bir şey ve bir şey tutmak için gereken en önemli şey çıktı değişkeninizi nasıl tanımlamak istediğinizdir .. sürekli mi, ikili mi? Çünkü günün sonunda bir çıktı değişkenini gözlemlemek / modellemek istiyorsunuz. Ben düşünmek sonraki şey gerekli değişken modellemek için mümkün olan yolları nelerdir .. o zaman gelecek şeyler değişken ikiyüzlüyse prosedür logit model .. sonraki dikkate sonra veri, nitrit cesur ve çeşitli sorunlar karşılaşır .. Umarım bu mantıklı.
ayush biyani

Yanıtlar:


6

İstatistiklerde, Veri Madenciliği gibi, verilerle ve bir hedefle başlarsınız. İstatistiklerde çıkarım, yani bir örnek kullanarak nüfus düzeyindeki soruları cevaplamaya çok fazla odaklanılmaktadır. Veri madenciliğinde odak genellikle tahmindir: test verilerini tahmin etmek için numunenizden (egzersiz verileri) bir model oluşturursunuz.

İstatistiklerdeki süreç şu şekildedir:

  1. Özetleri ve grafikleri kullanarak verileri keşfedin - istatistikçinin verilere nasıl yönlendirildiğine bağlı olarak, bazıları verilere tüm açılardan bakarken daha açık fikirli olurken, diğerleri (özellikle sosyal bilimciler) verilere ilgi konusu (örneğin, başkalarını değil, özellikle ilgili değişkenleri çizin)

    1. Uygun bir istatistiksel model ailesi seçin (örn. Sürekli Y için doğrusal regresyon, ikili Y için lojistik regresyon veya sayım verileri için Poisson) ve model seçimi yapın

    2. Son modeli tahmin edin

    3. Makul bir şekilde karşılandıklarından emin olmak için model varsayımlarını test edin (veri madenciliğinde tahmin doğruluğu testinden farklı)

    4. Çıkarım için modeli kullanın - bu, veri madenciliğinden farklı ana adımdır. "P-value" kelimesi buraya gelir ...

Herhangi bir temel istatistik ders kitabına bir göz atın ve Keşif Veri Analizi ve ardından bazı dağılımlar (makul tahmin modellerinin seçilmesine yardımcı olacak), ardından çıkarım (güven aralıkları ve hipotez testleri) ve regresyon modelleri ile ilgili bir bölüm bulacaksınız.

Size klasik istatistiksel süreci anlattım. Ancak, bununla ilgili birçok sorunum var. Çıkarım üzerine odaklanma tamamen alanlara hâkim olmuşken, tahmin (son derece önemli ve yararlı) neredeyse ihmal edilmiştir. Dahası, sosyal bilimcilerin çıkarsama için istatistikleri nasıl kullandıklarına bakarsanız, bunu oldukça farklı kullandıklarını göreceksiniz! Bununla ilgili daha fazla bilgiyi buradan edinebilirsiniz


2

Kitaplara gelince, Hastie, Tibshirani ve Friedman'ın "İstatistiksel Öğrenmenin Unsurları" çok iyi.

Kitabın tamamını yazarların web sitesinde bulabilirsiniz ; ihtiyaçlarınız için hiç uygun olup olmadığını görmek isteyebilirsiniz.



Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.