Açıklayıcı bir şekilde ifade edersem, "bazı gözlemler numunenin aşırı değerlerini alırsa veya oluşturursa, ancak gerçek değerleri gözlemlenen örnek aralığının dışındaysa, bir veri örneği sansürlenir" derim. Ancak bu aldatıcı bir şekilde açıktır.
Öyleyse ilk önce, doğal olarak bizi soruda sunulan vakaları tartışmaya yönlendirecek bir veri kümesinin sansürlendiğine nasıl karar verebileceğimizi tartışalım.
Farz edelim ki, bildiğimiz tek şey negatif olmadığı için ayrı bir rastgele değişkeninden aşağıdaki veri kümesine sahip olduğumuzu varsayalım :X
{0,1,1,2,2,2,2,2,2,2}
Veri kümesinin sansürlendiğini söyleyebilir miyiz? Bunun olabileceğini düşünmeye hakkımız var, ancak ille de öyle değil:
1) , aralığına ve olasılık dağılımına sahip olabilir . Eğer gerçekten durum buysa, burada sansür yoktur, sadece sınırlı bir destek ve yüksek asimetrik dağılım ile bu tür rastgele bir değişkenten "beklenen" bir örnek vardır. { 0 , 1 , 2 } { 0.1 , 0.1 , 0.8 }X{0,1,2}{0.1,0.1,0.8}
2) Ancak , tekdüze olasılık dağılımı dağılımı olan aralığına sahip olması söz konusu olabilir , bu durumda veri örneğimiz büyük olasılıkla sansürlenmiş. X{0,1,...,9}{0.1,0.1,...0.1}
Nasıl anlatabiliriz? Biz, olamaz biz önceden bilgi veya bilgileri posses eğer hariç bir ya da diğer durumda lehine iddia yapmamıza olanak sağlayacak. Soruda sunulan üç vaka sansürün etkisi hakkında önceden bilgi sağlıyor mu? Bakalım:
Durum A) bazı gözlemler için yalnızca "çok büyük", "çok küçük" vb. Niteliksel bilgilere sahip olduğumuz ve bu da gözlemlere aşırı bir değer atamamıza neden olan bir durumu açıklar. Sadece gerçek gerçekleşen değeri bilmemenin aşırı bir değer atamayı haklı çıkarmadığını unutmayın. Bu nedenle , bu gözlemler için değerlerinin gözlemlenen tüm değerleri aştığı veya altında olduğu konusunda bazı bilgilere sahip olmalıyız . Bu durumda, rastgele değişkenin gerçek aralığı bilinmemektedir, ancak kalitatif bilgilerimiz sansürlenmiş bir örnek oluşturmamıza izin verir (bu sadece gerçek gerçekleşen değere sahip olmadığımız gözlemleri neden düşürmüyoruz? ).
Durum B) olduğu değil bizim ön bilginin rastgele değişkenin maksimum değeri aşamaz söyler: Ben doğru anlamak değil, kirli numune bir olgu ise, sansürleme bir vaka fiziksel bir yasa ya a kadar (nedeniyle söz sosyal yasa -sadece bunun değerlerini kullanan bir derecelendirme sisteminden alınan veriler olduğunu ). Ancak değerini ve değerini de gözlemledik . Bu nasıl olabilir? Verilerin kaydedilmesinde hata. Ama böyle bir durumda, biz kesin olarak bilmiyoruz 'ler ve ' in olması gereken tüm 'ın (aslında, bir bilgisayarın yan klavyesi bakarak, daha olası olduğunu31,2,3454534's ' s ve 's ' s!). Numuneyi ne şekilde olursa olsun "düzelterek", sansürlemiyoruz, çünkü rastgele değişkenin ilk etapta kaydedilen aralıkta yer alması beklenmemektedir (bu nedenle ve değerlerine atanmış gerçek olasılıklar yoktur. ). 15245
Durum C) , bağımlı bir değişken ve tahmin edicilere sahip olduğumuz ortak bir örneği ifade eder. Burada, bağımlı değişken değerleri bir ya dolayı çalışmanın altında fenomenin yapısına iki uç noktasının en yoğun olduğu bir örnek olabilir: "saat çalıştı" olağan örnek olarak, işsizlerin iş yok ama onlar olurdu çalıştı (dikkatlice düşünün: bu durum bu cevabın başlangıcında gerçekten de tanımlayıcı "tanımın" kapsamına giriyor mu?). Yani onları kaydedilen saatlerle regresyona dahil ederek "sıfır" yanlılık yaratır. Diğer uçta için saat maksimum sayıda ulaşmaya muktedir iddia edilebilir çalıştı söylemek16/ gün ve verilen ücret için bu kadar çok çalışmaya istekli çalışanlar olabilir. Ancak yasal çerçeve buna izin vermiyor ve bu nedenle bu tür “çalışılan saatleri” gözlemlemiyoruz. Burada " amaçlanan işgücü arzı fonksiyonu" nu tahmin etmeye çalışıyoruz - ve bu değişkene göre örneğin sansürlenmiş olarak nitelendirilmesidir.
Ancak, yapmak istediğimiz şeyin " işsizlik ve yasal çerçeve olgusu göz önüne alındığında işgücü arzı işlevini" tahmin etmek olduğunu açıklarsak, bu iki yönün, istediğimiz bir şeyin etkisini yansıtacağından örnek sansürlenmeyecektir. yapmak için.
Bu nedenle, bir veri örneğini sansürlenmiş olarak tanımlamanın a
) farklı durumlardan gelebileceğini ve
b) kesilme
durumu ile karıştırılabileceği gerçeğini tek başına biraz özen gerektirdiğini görüyoruz .