İstatistiksel bir model oluşturmak tam olarak nedir?


15

İstatistiksel bir model oluşturmak tam olarak nedir?

Bu günlerde araştırma işleri veya danışmanlık işleri için başvurduğumda, "bir model oluşturmak" veya "modelleme" terimi sıklıkla ortaya çıkıyor. Terim kulağa hoş geliyor, ama tam olarak neyi kastediyorlar? Nasıl mı sen senin modeli oluşturmak?

K-nn ve lojistik regresyonu içeren öngörülü modellemeye baktım .


1
Bu oldukça geniş, çok çeşitli modellere atıfta bulunabilir - çeşitli regresyon türleri, çok düzeyli modeller, ağaçlar ve bunların çeşitleri, kümeleme .... vb.
Peter Flom - Monica'yı eski durumuna getirin

İstatistiksel bir model, matematiksel bir modelle aynıdır, ancak istatistiksel bir model, hataların değişken bir muhasebesine sahiptir. Matematiksel model: Ağırlık = Yükseklik * 2.7. İstatistiksel model: Ağırlık = Yükseklik * 2.7 + hata.
Neil McGuigan

2
Bu makaleden alıntı yapmak istiyorum : İstatistiksel Modelleme: İki kültür
user13985

Yanıtlar:


12

Ben hiçbir şekilde bir istatistikçi olmasam da, bir çok 'modelleme' yapmak için iniş yapıyorum - istatistiksel ve istatistiksel olmayan.

İlk olarak temel bilgilerle başlayalım:

Model tam olarak nedir?

Bir model, oldukça basitleştirilmiş de olsa gerçekliğin bir temsilidir. Bir ev için bir balmumu / ahşap 'modeli' düşünün. Dokunabilir / hissedebilir / koklayabilirsiniz. Şimdi matematiksel bir model sayılar kullanılarak gerçekliğin bir temsilidir.

Sorduğunu duyduğum bu 'gerçeklik' nedir? Tamam. Bu basit durumu düşünün: Eyalet valisi, bir paket sigara fiyatının gelecek yıl için 100 dolara mal olacağını söyleyen bir politika uyguluyor. 'Amaç', insanların sigara satın almasını caydırmak, böylece sigarayı azaltmak ve böylece sigara içenleri daha sağlıklı hale getirmek (çünkü istifa ettikleri).

1 yıl sonra vali soruyor - bu bir başarı mıydı? Bunu nasıl söylersin? Günde veya yılda satılan paket sayısı, anket yanıtları, sorunla ilgili olarak elde edebileceğiniz ölçülebilir veriler gibi verileri yakalarsınız. Sorunu 'modellemeye' yeni başladınız. Şimdi bu 'modelin' ne söylediğini analiz etmek istiyorsunuz . İstatistiksel modelleme burada işe yarar. Modelin nasıl göründüğünü görmek için basit bir korelasyon / dağılım grafiği çalıştırabilirsiniz. Nedensellik belirlemek için süslü olabilirsiniz, yani artan fiyat sigara içmenin düşmesine neden olmuşsa veya oyunda başka karıştırıcı faktörler varsa (örneğin, belki de tamamen başka bir şeydir ve modeliniz belki de kaçırmış olabilir mi?).

Şimdi, bu modeli oluşturmak bir 'kurallar dizisi' (daha çok yönergeler gibi) ile yapılır, yani neyin yasal olduğu / neyin olmadığı veya neyin anlamlı olmadığı / neyin mantıklı olmadığı. Ne yaptığınızı ve bu modelin sonuçlarını nasıl yorumlayacağınızı bilmelisiniz. Bu modeli oluşturmak / yürütmek / yorumlamak temel istatistik bilgisi gerektirir. Yukarıdaki örnekte korelasyon / saçılma grafikleri, regresyon (tek ve çok değişkenli) ve diğer şeyleri bilmeniz gerekir. İstatistikleri sezgisel olarak anlama hakkındaki mutlak eğlenceli / bilgilendirici okumayı okumanızı öneririm: Yine de p-değeri nedir İstatistiklere mizahi bir giriş ve basitten ileriye (yani, doğrusal regresyon) yol boyunca size 'modelleme' öğretecek. Sonra devam edip başka şeyler okuyabilirsiniz.

Dolayısıyla, bir modelin gerçekliğin bir temsili olduğunu ve "Tüm modeller yanlış ama bazıları diğerlerinden daha yararlı" olduğunu unutmayın . Bir model gerçeğin basitleştirilmiş bir temsilidir ve her şeyi düşünemezsiniz. ancak size anlamlı sonuçlar verebilecek iyi bir modele sahip olmak için neyi ve neyi gerektiğini bilmelisiniz.

Burada bitmiyor. Gerçekliği simüle etmek için modeller de oluşturabilirsiniz! Bir grup sayı zaman içinde bu şekilde değişecektir (diyelim). Bu sayılar, alan adınızdaki bazı anlamlı yorumlarla eşleşir. Bu modelleri benim için de oluşturabilirsiniz çeşitli önlemler birbirleriyle ilişkisini (burada belki sorgulanabilir istatistiklerin uygulanması, ama şimdilik endişe yok) nasıl olduğunu öğrenmek için verileri. Örnek: Ayda bir mağaza için bakkal satışlarına bakıyorsunuz ve her bira alındığında bir bebek bezi paketi olduğunu fark ediyorsunuz (veri kümesinden geçen ve size bu ilişkiyi gösteren bir model oluşturuyorsunuz). Tuhaf olabilir, ancak çoğu zaman babaların bebeklerini çocuklarını otururken hafta sonu satın aldıkları anlamına gelebilir? Bira yakın bebek bezi koymak ve satışlarınızı artırabilir! Aaah! Modelleme :)

Bunlar sadece örnektir ve hiçbir şekilde profesyonel çalışma için referans değildir. Temelde, realitenin nasıl işleyeceğini / işleyeceğini anlamak / tahmin etmek ve çıktılara dayalı olarak daha iyi kararlar almak için modeller oluşturursunuz. İstatistikler olsun ya da olmasın, muhtemelen tüm hayatınızı farkında olmadan modelleme yapıyorsunuzdur. İyi şanslar :)


11

İstatistiksel bir model oluşturmak, o sistemde yer alan belirsizlik ve / veya rasgeleliği açıklayan gerçek dünyadaki bazı fenomenlerin matematiksel bir tanımını yapmayı içerir. Uygulama alanına bağlı olarak, bu, lineer regresyon veya basit hipotez testleri gibi basit bir şeyden karmaşık çok değişkenli faktör analizi veya veri madenciliği arasında değişebilir.


5
Bunu iptal ettim, çünkü son derece geniş bir soruya cevap vermek cesur, özlü bir çaba. Bununla birlikte, "veri madenciliği" nin herhangi bir istatistiksel modelleme içerip içermediğine dair bazı şüphelerim var ve bu ifade ile ne kastettiğinizin bir örneğini veya açıklamasını görmek isterim.
whuber

@whuber LASSO özellik seçimi yapıyor, bir anlamda bir regresyon modeli oluşturmak değil mi?
user13985

Başka bir deyişle, sadece hayali tuğla ve harç kullanarak bir ev inşa etmek gibi bir şey mi? Ezoterik yorumum jest olarak söyleniyor. :)
Graeme Walsh

1
Veri madenciliği, belirli bir modeli oluşturma veya onaylama sürecinin bir parçası olarak kullanılabilir.
Dave

5

Bana modelleme, gözlemlenebilir veriler için, gözlemlenebilir verilerdeki değerli farklılıkları var olduklarında ayırt etmek için kullanılabilecek, tahmin edilebilir parametrelerle olasılıksal bir çerçeve belirtmeyi içerir. Buna güç denir. Olasılıksal modeller tahmin veya çıkarım için kullanılabilir. Makineleri kalibre etmek, yatırım getirisi eksikliğini göstermek, hava durumu veya stokları tahmin etmek veya tıbbi karar almayı basitleştirmek için kullanılabilirler.

Bir modelin oluşturulması gerekmez. İzole edilmiş bir deneyde, iki grup arasında ortalamalarda anlamlı bir fark olup olmadığını belirlemek için t-testi gibi parametrik olmayan bir modelleme yaklaşımı kullanılabilir. Bununla birlikte, birçok tahmin amacıyla, zamandaki değişiklikleri tespit etmek için modeller oluşturulabilir. Örneğin, geçiş temelli Markov modelleri yatırımlar için piyasa değerindeki yukarı ve aşağı değişimleri tahmin etmek için kullanılabilir, ancak bir "düşüş" beklenenden daha kötü olarak değerlendirilebilir mi? Tarihsel kanıtlar ve gözlemlenen öngörücüler kullanılarak, gözlemlenen düşüşlerin tarihsel olarak sürdürülenden önemli ölçüde farklı olup olmadığını kalibre etmek için karmaşık bir model oluşturulabilir. Kontrol çizelgeleri, kümülatif insidans çizelgeleri, hayatta kalma eğrileri ve diğer "zamana dayalı" çizelgeler gibi araçları kullanarak,

Alternatif olarak, bazı modeller veri büyüdükçe uyum sağlama esnekliğine sahip olarak "üretilir". Twitter'ın eğilimi saptaması ve Netflix'in öneri sistemi bu modellerin başlıca örnekleridir. Esnek bir modelin, tarihi değişimlere ve eğilimlere uyum sağlamasına ve yüksek etkili filmlerin tanıtımı, yeni kullanıcıların büyük ölçüde kullanılması veya mevsimsellik nedeniyle film tercihinde dramatik değişim.

Bazı veri madenciliği yaklaşımları tanıtılmaktadır, çünkü belirli tahmin yaklaşımı türlerine ulaşmada oldukça beceriklidirler (yine, verilerde "beklenen" eğilimleri veya değerleri elde etme konusu). K-NN, yüksek boyutlu verileri bir araya getirmenin ve öznelerin sadece yakınlık nedeniyle güvenilir tahminler alıp alamayacaklarını (yaş, müzik zevki, cinsel tarih ya da başka bir ölçülebilir özellik olsun) ortaya çıkarmanın bir yoludur. Öte yandan lojistik regresyon ikili bir sınıflandırıcı elde edebilir, ancak olasılık oranı adı verilen bir parametre aracılığıyla ikili sonuç ve bir veya daha fazla pozlama ve koşul arasındaki ilişkiyi çıkarmak için daha yaygın olarak kullanılır. Limit teoremleri ve genelleştirilmiş doğrusal modellerle ilişkisi nedeniyle, olasılık oranları "yüksek oranda korunmuş" tip I hataya sahip oldukça düzenli parametrelerdir (ör.


Kelimelerin için teşekkürler. Twitter'ın Netflix'i tespit etmesi durumunda, makine öğrenimi alanında az ya da çok değil mi? Modelleme ve makine öğrenmesi arasındaki çizgiyi sık sık çizemiyorum.
user13985

1
Makine öğrenimi genellikle yüksek boyutlu modellemedir. Birçok yöntem, kullanılan cezalara veya ağırlıklandırmaya sahip olabilirlik tabanlı yöntemlerin özel durumlarıdır.
AdamO

Düşüncelerimi doğruladığınız için teşekkürler, başka bir şey isteyip istemediğinizi bize bildirin.
user13985

3

Modelleme, uygun bir modelin belirlenmesi sürecidir.

Çoğunlukla bir modelin önemli değişkenler hakkında iyi bir fikri vardır ve belki de belirli bir model için teorik bir temeli olabilir. Ayrıca, tepki ve öngörücülerle olan genel ilişki hakkında bazı gerçekleri de bileceklerdir, ancak bir model hakkındaki genel fikirlerinin tamamen yeterli olduğundan emin olmayabilirler - ortalamanın nasıl çalışması gerektiği konusunda mükemmel bir teorik fikir olsa bile, örneğin, varyansın ortalama ile ilgili olmadığından emin olmayabilir veya bazı seri bağımlılıkların mümkün olabileceğinden şüphelenebilirler.

Dolayısıyla, verilere (en azından bazılarına) gönderme yapan model tanımlamanın birkaç aşamasının bir döngüsü olabilir. Alternatif, oldukça uygun olmayan modellere sahip olma riskini düzenli olarak riske atmaktır.

(Elbette, eğer sorumlularsa, verilerin bu şekilde kullanılmasının çıkarımlarını nasıl etkilediğini dikkate almaları gerekir.)

Gerçek süreç, bölgeden bölgeye ve kişiden kişiye değişir, ancak bazı kişilerin süreçlerindeki adımları açıkça listelemeleri mümkündür (örneğin, Box ve Jenkins zaman serilerindeki kitaplarında böyle bir yaklaşımı özetlemektedir ). Model tanımlamanın nasıl yapılacağı ile ilgili fikirler zamanla değişir.


0

İstatistiksel bir modelin neyin ortak bir tanımı olduğunu düşünmüyorum. Sektördeki tecrübemden ekonometride azaltılmış form modeli olarak adlandırılan şeyle eşanlamlı gibi görünüyor . Açıklayacağım.

Alanınızda yerleşik ilişkiler veya "yasalar" olduğunu varsayalım, örneğin Fizikte bu F=md2xdt2bu kuvvetin ivme ile orantılı olduğunu belirtmek (diğer bir deyişle "2. mekanik yasa"). Yani, bu kanunu bilerek bir top topu yörüngesinin matematiksel bir modelini oluşturabilirsiniz.

Bu model, Fizikçilerin "sabitler" veya "katsayılar" dediği şeye sahip olacaktır, örn. Belirli bir sıcaklık ve yükseklikteki hava yoğunluğu. Deneysel olarak bu katsayıların ne olduğunu bulmanız gerekecek. Bizim durumumuzda toplardan toplar, açı, sıcaklık vb.Gibi çok farklı, sıkı kontrol edilen koşullarda ateş etmesini isteyeceğiz.

Tüm verileri topluyoruz ve istatistiksel teknikleri kullanarak modele uyuyoruz. Doğrusal regresyon veya ortalamalar kadar basit olabilir. Bir kez tüm katsayıları elde ettikten sonra, ateşleme masalarını üretmek için matematiksel modelimizi çalıştırıyoruz. Bu, burada "CANNON ARTILLERY İÇİN YANGIN TABLOLARININ ÜRETİMİ" olarak adlandırılan , sınıflandırılmamış belgede düzgün bir şekilde açıklanmıştır .

Az önce tarif ettiğim istatistiksel bir model değil . Evet, istatistikleri kullanır, ancak bu model, modelin özü olan Fizik yasalarını oluşturur. Burada istatistikler, birkaç önemli parametrenin değerlerini belirlemek için sadece bir araçtır. Sistemin dinamikleri alan tarafından tanımlanır ve önceden belirlenir.

Farz edelim ki, Fizik yasalarını bilmiyorduk ya da umursamadık ve basitçe top uçuş mesafesi ile ateş açısı ve sıcaklık gibi parametreler arasında bir "istatistiksel model" kullanarak ilişki kurmaya çalıştık. Bir grup aday değişken veya özellik ve değişkenlerin dönüşümleri, belki de polinom sıcaklık serisi vb. İle büyük bir veri kümesi yaratırdık. Sonra bir tür gerileme ve tanımlanmış katsayılar yürütürüz. Bu katsayıların mutlaka sahada yorum yapması gerekmez. Onlara sıcaklık karesi vb. Duyarlılık diyebiliriz. Bu model, top toplarının uç noktalarını tahmin etmede oldukça iyi olabilir, çünkü altta yatan süreç oldukça kararlıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.