Casella ve Berger'den sonra neler öğrenmeli?


22

Ben, uygulamalı matematiğin çok az bir geçmişine sahip bir matematik mezunuyum. Geçen sonbahardan beri Casella & Berger'in kitabında ders alıyorum ve kitapta yüzlerce (230+) sayfa egzersiz problemi bitirdim. Şu anda Bölüm 10’dayım.

Ancak, istatistiklere girmediğim veya istatistikçi olmayı planlamadığım için, veri analizini öğrenmeye devam etmek için düzenli olarak zaman harcayabileceğimi sanmıyorum. Şimdiye kadarki deneyimim, bir istatistikçi olmak için, birinin çeşitli dağılımları içeren çok sıkıcı bir hesaplamaya dayanması gerektiğini söylüyor (Weibull, Cauchy, , F ...). Temel düşüncelerin basit olmasına rağmen, uygulama (örneğin, hipotez testindeki LRT) teknikler nedeniyle hala zor olabilir.tF

Anlayışım doğru mu? Sadece daha ileri materyalleri kapsayan bir olasılık ve istatistik öğrenebileceğim bir şey değil, aynı zamanda gerçek hayatta veri analizine ihtiyaç duyduğumda yardımcı olabilir mi? Eskiden yaptığım gibi haftada 20 saat harcamam gerekecek mi?

Matematik öğrenmede kraliyet yolu olmadığına inanmakla birlikte, çoğu zaman merak etmeme yardımcı olamam - çoğu zaman dağılımın gerçek hayat verileri için ne olduğunu bilmiyoruz, bu nedenle sadece çeşitli dağıtım ailelerine odaklanmamızın amacı nedir? ? Örneklem büyüklüğü küçükse ve merkezi limit teoremi geçerli değilse, dağılımın bilinmemesi durumunda örnek ortalamanın ve varyansın yanı sıra verileri nasıl doğru bir şekilde analiz edebiliriz?

Dönemim bir ay içinde bitecek ve doktora araştırmaya odaklanmaya başladıktan sonra bilgilerimin buharlaşmasını istemiyorum. Bu yüzden sormaya karar verdim. R öğreniyorum ve bazı programlama geçmişim var, ancak seviyem kod maymunu ile aynı.

Yanıtlar:


24

Veri analizini öğrenmeye devam etmek için düzenli zaman yatırımı yapabileceğimi sanmıyorum

Casella & Berger'in veri analizi konusunda veriyi öğrenebileceği bir yer olduğunu sanmıyorum . İstatistik teorisinin bazı araçlarını öğrenmek için bir yer.

Şimdiye kadar bir istatistikçi olmamı söyleyen deneyimim, çeşitli dağılımları içeren çok sıkıcı hesaplamalara dayanmak zorunda (Weibull, Cauchy, t, F ...).

Veri analizi yapan bir istatistikçi olarak çok zaman geçirdim. Nadiren (neredeyse hiç) sıkıcı bir hesaplama yapmamı gerektirir. Bazen biraz basit cebir içerir, ancak ortak problemler genellikle çözülür ve bunu her seferinde tekrarlamak için herhangi bir çaba harcamam gerekmez.

Bilgisayar tüm sıkıcı hesaplamaları yapar.

Makul bir şekilde standart bir durum üstlenmeye hazır olmadığım (örneğin bir GLM kullanmaya hazırlıklı olmadığım) bir durumdaysam, genel olarak başka bir dağıtımı da üstlenecek kadar bilgiye sahip değilim, bu yüzden LRT genellikle moot (ihtiyaç duyduğum zaman yapabilirim, ya çoktan çözülmeye ya da nadiren ilginç bir saptırma ortaya çıkmaya meyillidirler).

Çok fazla simülasyon yapmaya meyilliyim; Ben de sıklıkla yeniden örneklemeyi parametrik varsayımların yanında ya da onun yerine bir biçimde kullanmayı deniyorum.

Eskiden yaptığım gibi haftada 20 saat + harcamam gerekecek mi?

Bu, ne yapabilmek istediğinize ve bu konuda ne kadar çabuk iyileşmek istediğinize bağlıdır.

Veri analizi bir beceridir ve pratik ve geniş bir bilgi tabanı gerektirir. Zaten ihtiyacınız olan bazı bilgilere sahip olacaksınız.

Eğer çok çeşitli konularda iyi bir uygulayıcı olmak istiyorsanız, çok zaman alacaktır - ama bence cebirden ve Casella ve Berger egzersizlerini yapmaktan çok daha eğlenceli.

Oluşturduğum becerilerin bir kısmı, regresyon problemlerinin zaman serileri için faydalı olduğunu söylüyor, yani - çok fazla yeni beceriye ihtiyaç var. Bu yüzden artık arsaları ve QQ arsalarını yorumlamayı öğrenmek faydalıdır, ancak bana bir PACF arsadaki küçük bir çarpma konusunda ne kadar endişelenmem gerektiğini söylemiyorlar ve bana bir adım ileriye dönük tahminin kullanımı gibi araçlar vermiyorlar. hatalar.

Örneğin, tipik gamma veya weibull modelleri için makul bir şekilde ML'nin nasıl yapılacağını bulmak için çaba harcamam gerekmiyor , çünkü zaten büyük ölçüde uygun bir forma getirilen sorunları çözebilecek kadar standartlar.

Araştırma yapmaya gelirseniz , Casella & Berger gibi yerlerde edindiğiniz becerilerden daha fazlasına ihtiyacınız olacak (ancak bu tür becerilerde bile birden fazla kitap okumalısınız).


Bazı önerilen şeyler:

Başka hiçbir şey yapmasanız bile, kesinlikle bazı regresyon becerileri geliştirmelisiniz.

Çok sayıda iyi kitap var, ama belki de Draper ve Smith Uygulamalı Regresyon Analizi artı Fox ve Weisberg Uygulamalı Regresyona Bir Arkadaş ; Ayrıca Harrell Regresyon Modelleme Stratejileri'ni izlemenizi öneririz.

(Draper ve Smith yerine istediğiniz sayıda iyi kitap kullanabilirsiniz - size uygun bir veya iki tane bulabilirsiniz.)

İkinci kitabın, okumaya değer çok sayıda çevrimiçi ek bölümleri var (ve kendi R-paketini)

-

İyi bir ikinci porsiyon Venables & Ripley's S ile Modern Uygulamalı İstatistikler olacaktır .

Bu, fikirlerin oldukça geniş bir yelpazesinde topraklanmadır.

Bazı konularda daha temel malzemelere ihtiyaç duyduğunuz ortaya çıkabilir (geçmişinizi bilmiyorum).

O zaman hangi istatistik alanlarını istediğinizi / ihtiyaç duyduğunuzu düşünmeye başlamanız gerekir - Bayesian istatistikleri, zaman serileri, çok değişkenli analiz, vb.


6

Benim tavsiyem, tam tersi bir bakış açısıyla (Stats PhD öğrencisi) bir regresyon ders kitabıyla çalışmak. Bu, uygulamalı deneyimi olmayan sağlam bir teorik geçmişi olan biri için doğal bir başlangıç ​​noktası gibi görünüyor. Bölümümüz dışından birçok lisansüstü öğrencinin regresyon kursuna başladığını biliyorum.

En iyisi Sanford Weisberg'in Uygulamalı Doğrusal Regresyon'udur . Dördüncü versiyonunda olduğuna inanıyorum. Muhtemelen nispeten ucuz eski sürümleri bulabilirsiniz.

http://users.stat.umn.edu/~sandy/alr4ed/

Bu kitapla ilgili güzel bir şey, özellikle R ile olan göreceli deneyiminiz göz önüne alındığında, yukarıdaki bağlantı üzerinden ulaşılabilen R primerdir. Kitapta yapılan her şeyi yeniden yaratmak için yeterli talimat sağlar. Bu yolla, geriliği (GLM'nin bazı temellerine ek olarak) gerçekte öğrenemezsiniz, R programlaması sizi engellemez (ve muhtemelen yol boyunca birçok R temelini seçeceksiniz).

Eğer R'ye kapsamlı bir giriş yapmak istiyorsanız, Fox ve Weisberg'in Uygulamalı Regresyona Bir Arkadaşı olarak geçmekten daha iyi bir şekilde yararlanabilirsiniz , ancak programlamadan ziyade istatistikleri öğrenmeyi tercih ediyor gibisiniz (eğer bu iki şey ayrı düşünülürse).

Zaman taahhüdünüz ile ilgili olarak, bu ders kitabını ya da materyalleri fazlasıyla zor bulacağınızı sanmıyorum. Casella-Berger'den farklı olarak, ispat veya türetme şeklinde pek bir şey olmayacak. Genel olarak oldukça basit.

Bir yana, çevrimiçinde dolaşan çözümler var gibi görünüyor (ya da bir noktada), böylece problemleri deneyebilir, çözümleri kontrol edebilir ve kitapta istediğiniz gibi bir hızla çalışabilirsiniz.


4

Dolambaçlı bir şekilde kendime daha fazla istatistikçi olmak için çalışıyorum, ancak öncelikle bazı nicel ve metodolojik çıkarları olan bir psikologum. Psikometrik çalışmaları düzgün yapmak için, el ile hesaplamayı hayal etmeyeceğim ileri (psikologlar için) yöntemler üzerine çalıştım (nasıl daha az bilirim). Geçtiğimiz on yıl boyunca bu yöntemlerin R paketi programcılarının özel çabalarından ne kadar erişilebilir ve kullanışlı hale geldiğine şaşırdım. Her yöntem için 20 saatten daha az bir sürede kullanmayı öğrendiğim yeni yöntemlerle gerçek hayat analizi yapıyorum. onu kullanarak sonuç, ama kesinlikle benim gibi ilerleme yapmak için çalışma yarı zamanlı bir çalışma yapmaya gerek yoktur. Zaman bulabildiğin kadar elinden geleni yap; İhtiyacın yoksa, hepsi ya da hiçbiri peşinde değil.

Dağıtım aileleri dışında, kesinlikle sadece herhangi bir konuya odaklanmadım; Dürüst olmak gerekirse iyilikçi istatistikçilerin de bu kadar dar çalışacağından şüpheliyim. Geçen hafta boyunca birkaç kez teorik dağılımlarda belki de bir saat boyunca günde bir saat çalıyordum; gerçek veri uygulamalarında faydalı olduğunu kanıtlamak için çok fazla şey yapıldı. Söyleyebileceğim kadarıyla, fikir kesinlikle dağılımları sınıflandırmak için çok değil; teorilere benzeyen dağılım şekillerini tanımak ve bunları uygun analizlere karar vermek ve temel dinamikleri anlamak için kullanmak için kullanır. " Teoriye, zihnine veya başka bir şeye dayalı dağılımları seçmek daha iyi midir? " Konusundaki son cevabımdaki benzer düşünceleri paylaştım.

Varsayım olarak hangi analizi yapmak istediğinizi söylemediniz , varsayımsal en kötü senaryonuzdur, ancak herhangi bir analizin örnekleme hatasına olan duyarlılığını incelemek için yollar vardır. CLT uygulanmazsa, nasıl yapılacağını biliyorsanız, sorabileceğiniz birkaç istatistiksel soru vardır. Parametrik olmayan yöntemler genellikle dağıtımlar hakkında çok sınırlı varsayımlarda bulunur, bu nedenle bir popülasyonun dağılımının şekli hakkında önceden bilgi sahibi olmak büyük bir sorun değildir.

Genel olarak bilgi, bunların hepsini çabucak veya tamamen buharlaştırmaz, ancak kullanmazsanız, serbestçe hatırlamakta zorlanacaksınız. Daha önce birkaç yıl çalıştığınız konuları okumanız gerektiğinde hala kullanışlı olabilecek bir tanıma avantajını daha uzun süre koruyacaksınız ... ama öğrendiklerinizde akıcı kalmak istiyorsanız, kullanmaya devam edin ve öğrenmeye devam edin! R, sahip olduğunuz boş çalışma süresine yatırım yapmak için kesinlikle iyi bir yerdir. Saf matematiğinize de yardımcı olmalı: " PowerPoint ile kullanılacak en iyi açık kaynaklı veri görselleştirme yazılımı " konusundaki son cevaplarımdan bir başkasına bakın .


3

2019'da buna rastladım. İki sentim.

Çeşitli türde veri analizi yapmaya meyilli bir istatistik profesörüyüm (bu yüzden istatistikleri seçtim!). Bazı pratik bilgiler edinmek için James, Witten, Hastie ve Tibshirani "İstatistiksel Öğrenmeye Giriş" i tavsiye ediyorum. Hatta buna dayanan bir MOOC bile var. Kitapta birçok "gerçek veri" örneği kullanılıyor ve ayrıca R tabanlı.


"İstatistiksel öğrenmenin unsurları" nın ötesinde önereceğin bir şey var mı? Sanırım şimdi kitabın (temel kısımları) aşina olduğumu düşünüyorum.
Bombyx mori

2

Bu soruya daha sonra gelen başkalarına cevap vermek…


gerçek hayat veri analizi

Veritabanlarını (SQL), dplyr / pandaları, unix araçlarını (sed, grep), kazıma, komut dosyası oluşturma, veri temizleme ve yazılım testlerini öğrenin. Çeşitli ihtisaslaşmış dağıtımların endüstride değeri çok düşüktür.

Angrist & Pischke, Faraway veya Weisberg gibi uygulamalı bir regresyon kitabı daha pratik bir teori olacaktır.

çoğu zaman dağılımın gerçek hayat verileri için ne olduğunu bilmiyoruz, bu nedenle sadece çeşitli dağıtım ailelerine odaklanmamızın amacı nedir?

Dolayısıyla parametrik olmayan istatistiklere ilgi. Ancak aynı zamanda varsayımsız parametrik olmayan da gevşek. Sorunuzu cevaplamak için, uzman aileler, belki karşılaşabileceğiniz basit soruların cevapları olarak düşünülebilir. Mesela ben bir Gaussian'ı "pürüzsüz" bir nokta-tahmin olarak düşünüyorum. Poisson başka bir basit soruyu cevaplıyor. İnsanlar matematiksel modeller geliştirdiklerinde bu özel noktalar dayanaklı noktalar olabilir. (Ancak akademisyenler ustaca dağıtma görevini yanlış bir şekilde yaparlar.)

OP: Doktora araştırmanızdan memnun kaldınız!

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.