Sansürlü veriler tam olarak nedir?


14

Sansürlü verilerin farklı açıklamalarını okudum:

A) Bu iş parçacığında açıklandığı gibi, belirli bir eşiğin altında veya üstünde nicelleştirilmemiş veriler sansürlenir. Niteliksiz veri belirli bir eşiğin üzerinde veya altında olduğu anlamına gelir, ancak kesin değeri bilmiyoruz. Veriler daha sonra regresyon modelindeki düşük veya yüksek eşik değerinde işaretlenir . Çok net bulduğum bu sunumdaki açıklama ile eşleşiyor (ilk sayfada 2. slayt). Başka bir deyişle , o aralığın dışındaki gerçek değeri bilmediğimiz için ya minimum, maksimum değer ya da her ikisiyle sınırlıdır.Y

B) Bir arkadaşım , bilinmeyen sonuçları hakkında en azından bazı sınırlı bilgilere sahip olmamız koşuluyla, kısmen bilinmeyen gözlemlerine sansürlü bir veri modeli uygulayabileceğimizi söyledi . Örneğin, bazı nitel kriterlere (mal türü, ülke, istekliler serveti, vb.) Dayalı olarak sessiz ve açık müzayedelerin bir karışımı için nihai fiyatı tahmin etmek istiyoruz. Açık artırmalar için tüm nihai fiyatları biliyoruz , sessiz açık artırmalar için ise sadece ilk teklifi (1.000 dolar) biliyoruz, ancak nihai fiyatı bilmiyoruz. Bu durumda verilerin yukarıdan sansürlendiği ve sansürlü bir regresyon modelinin uygulanması gerektiği söylendi.Y i Y iYYiYi

C) Son olarak Wikipedia'nın tamamen eksik olduğu ancak öngörücülerin mevcut olduğu bir tanımı vardır. Bu örneğin kesilmiş verilerden nasıl farklı olduğundan emin değilim.Y

Sansürlü veriler tam olarak nedir?


6
Daha alakalı Wikipedia makalesi en.wikipedia.org/wiki/Censoring_%28statistics%29 adresindedir . Kapsamlı olmasa da, en azından Tip I ve Tip II sansürlemeyi açıklar ve sol ve sağ sansürle birlikte aralık sansürünü kabul eder.
whuber

Yanıtlar:


8

Sonuç ve ortak değişken ilgili aşağıdaki verileri göz önünde bulundurun :xyx

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Kullanıcı 1 için eksiksiz veriler var. Diğer herkes için eksik verilerimiz var. Kullanıcılar 2, 3 ve 4 sansürlenir: ortak değişkenin bilinen değerlerine karşılık gelen sonuç gözlenmez veya tam olarak gözlenmez (sol, sağ ve aralık sansürlenmiş). Bazen bu, anket tasarımında gizlilik hususlarının bir ürünüdür. Diğer zamanlarda, başka nedenlerle olur. Örneğin, asgari ücretin altında herhangi bir ücret veya arena kapasitesinin üzerinde konser bileti için gerçek talep gözlenmemektedir.

Kullanıcı 5 kesildi: hem sonuç hem de ortak değişken eksik. Bu genellikle olur çünkü sadece bir şeyler yapan insanlar hakkında veri toplarız. Örneğin, bir şey satın sadece anket insanlar ( ), biz kimseyi dışlamak böylece onların yanında s. Bu tür kullanıcı için veri girişi dışında bir satır bile olmayabilir, ancak var olduklarını biliyoruz, çünkü örneğimizi oluşturmak için kullanılan kuralı biliyoruz. Diğer bir örnek de tesadüfi kesilmedir: sadece işgücünde olan insanlar için ücret tekliflerini gözlemliyoruz, çünkü ücret teklifinin çalışırken ücret olduğunu varsayıyoruz. Kesme değil, başka bir değişkene bağlı olduğu için rastlantısaldır . y = 0 x yy>0y=0xy

Kısacası, kesme işlemi sansürden daha fazla bilgi kaybı anlamına gelir (A ve B noktaları). Bu "eksiklik" türlerinin her ikisi de sistematiktir.

Bu tür verilerle çalışmak genellikle hata hakkında güçlü bir dağıtım varsayımı yapmayı ve bunu dikkate alma olasılığını değiştirmeyi içerir. Daha esnek yarı parametrik yaklaşımlar da mümkündür. Bu B noktasında örtüktür.


2
Bu cevabın iki yönü beni karıştırıyor. Birincisi, tamamen eksik değerler mutlaka kesmeyi yansıtmaz. İkinci olarak, bir şekilde kalmasına ilişkin ( "random" e karşı "bilgi") daha aralığı değerli verilerin sadece bir kayıt daha sansürleme olduğunu gösteren, sansür aslında kadar önemli genellikle.
whuber

Bu çok iyi bir örnek. Her için farklı "sansür sınırları" uygulanabileceği anlamına mı geliyor ? Bu durumda modeli nasıl formüle edebiliriz? Bu, B) 'deki arkadaşımın ifadesini doğrular. y
Robert Kubrick

1
Homoskedastic varsaymak ediyoruz istekli Eğer varsa, normalde dağıtılmış hataları, olabilirlik gibi yazılabilir bu ve gözlem özgü sansürleme eşikleri ile MLE kullanabilirsiniz.
Dimitriy V. Masterov

3
@Peter Bu (doğru) sansür değil mi? Bu tür insanlar örnek dışında tutulursa ve hiç sayılmazsa kesilme meydana gelir. Bkz. En.wikipedia.org/wiki/Truncation_(statistics) .
whuber

1
@Peter, "o kişinin BMI'sının 30'un üzerinde olduğunu biliyoruz" diye kafa karıştırıcı olan şey nedir: örneğinizde bile olmayan birine nasıl başvurabilirsiniz ("sayılmadı")? "BMI> 30" formunun gözlemlenmesi sansürleyici olurken, bu tür gözlemlerin popülasyonda mevcut olsalar bile analizinizden tamamen çıkarılması kesilmedir. İkinci durumda söyleyebileceğiniz tek şey, "BMI'si 30'un üzerinde olan kişiler örnekten hariç tutulmuştur."
whuber

9

Açıklayıcı bir şekilde ifade edersem, "bazı gözlemler numunenin aşırı değerlerini alırsa veya oluşturursa, ancak gerçek değerleri gözlemlenen örnek aralığının dışındaysa, bir veri örneği sansürlenir" derim. Ancak bu aldatıcı bir şekilde açıktır.

Öyleyse ilk önce, doğal olarak bizi soruda sunulan vakaları tartışmaya yönlendirecek bir veri kümesinin sansürlendiğine nasıl karar verebileceğimizi tartışalım.

Farz edelim ki, bildiğimiz tek şey negatif olmadığı için ayrı bir rastgele değişkeninden aşağıdaki veri kümesine sahip olduğumuzu varsayalım :X

{0,1,1,2,2,2,2,2,2,2}

Veri kümesinin sansürlendiğini söyleyebilir miyiz? Bunun olabileceğini düşünmeye hakkımız var, ancak ille de öyle değil:

1) , aralığına ve olasılık dağılımına sahip olabilir . Eğer gerçekten durum buysa, burada sansür yoktur, sadece sınırlı bir destek ve yüksek asimetrik dağılım ile bu tür rastgele bir değişkenten "beklenen" bir örnek vardır. { 0 , 1 , 2 } { 0.1 , 0.1 , 0.8 }X{0,1,2}{0.1,0.1,0.8}

2) Ancak , tekdüze olasılık dağılımı dağılımı olan aralığına sahip olması söz konusu olabilir , bu durumda veri örneğimiz büyük olasılıkla sansürlenmiş. X{0,1,...,9}{0.1,0.1,...0.1}

Nasıl anlatabiliriz? Biz, olamaz biz önceden bilgi veya bilgileri posses eğer hariç bir ya da diğer durumda lehine iddia yapmamıza olanak sağlayacak. Soruda sunulan üç vaka sansürün etkisi hakkında önceden bilgi sağlıyor mu? Bakalım:

Durum A) bazı gözlemler için yalnızca "çok büyük", "çok küçük" vb. Niteliksel bilgilere sahip olduğumuz ve bu da gözlemlere aşırı bir değer atamamıza neden olan bir durumu açıklar. Sadece gerçek gerçekleşen değeri bilmemenin aşırı bir değer atamayı haklı çıkarmadığını unutmayın. Bu nedenle , bu gözlemler için değerlerinin gözlemlenen tüm değerleri aştığı veya altında olduğu konusunda bazı bilgilere sahip olmalıyız . Bu durumda, rastgele değişkenin gerçek aralığı bilinmemektedir, ancak kalitatif bilgilerimiz sansürlenmiş bir örnek oluşturmamıza izin verir (bu sadece gerçek gerçekleşen değere sahip olmadığımız gözlemleri neden düşürmüyoruz? ).

Durum B) olduğu değil bizim ön bilginin rastgele değişkenin maksimum değeri aşamaz söyler: Ben doğru anlamak değil, kirli numune bir olgu ise, sansürleme bir vaka fiziksel bir yasa ya a kadar (nedeniyle söz sosyal yasa -sadece bunun değerlerini kullanan bir derecelendirme sisteminden alınan veriler olduğunu ). Ancak değerini ve değerini de gözlemledik . Bu nasıl olabilir? Verilerin kaydedilmesinde hata. Ama böyle bir durumda, biz kesin olarak bilmiyoruz 'ler ve ' in olması gereken tüm 'ın (aslında, bir bilgisayarın yan klavyesi bakarak, daha olası olduğunu31,2,3454534's ' s ve 's ' s!). Numuneyi ne şekilde olursa olsun "düzelterek", sansürlemiyoruz, çünkü rastgele değişkenin ilk etapta kaydedilen aralıkta yer alması beklenmemektedir (bu nedenle ve değerlerine atanmış gerçek olasılıklar yoktur. ). 15245

Durum C) , bağımlı bir değişken ve tahmin edicilere sahip olduğumuz ortak bir örneği ifade eder. Burada, bağımlı değişken değerleri bir ya dolayı çalışmanın altında fenomenin yapısına iki uç noktasının en yoğun olduğu bir örnek olabilir: "saat çalıştı" olağan örnek olarak, işsizlerin iş yok ama onlar olurdu çalıştı (dikkatlice düşünün: bu durum bu cevabın başlangıcında gerçekten de tanımlayıcı "tanımın" kapsamına giriyor mu?). Yani onları kaydedilen saatlerle regresyona dahil ederek "sıfır" yanlılık yaratır. Diğer uçta için saat maksimum sayıda ulaşmaya muktedir iddia edilebilir çalıştı söylemek16/ gün ve verilen ücret için bu kadar çok çalışmaya istekli çalışanlar olabilir. Ancak yasal çerçeve buna izin vermiyor ve bu nedenle bu tür “çalışılan saatleri” gözlemlemiyoruz. Burada " amaçlanan işgücü arzı fonksiyonu" nu tahmin etmeye çalışıyoruz - ve bu değişkene göre örneğin sansürlenmiş olarak nitelendirilmesidir.
Ancak, yapmak istediğimiz şeyin " işsizlik ve yasal çerçeve olgusu göz önüne alındığında işgücü arzı işlevini" tahmin etmek olduğunu açıklarsak, bu iki yönün, istediğimiz bir şeyin etkisini yansıtacağından örnek sansürlenmeyecektir. yapmak için.

Bu nedenle, bir veri örneğini sansürlenmiş olarak tanımlamanın a
) farklı durumlardan gelebileceğini ve
b) kesilme
durumu ile karıştırılabileceği gerçeğini tek başına biraz özen gerektirdiğini görüyoruz .


6
Bu ekonometrik bir bakış açısı gibi görünüyor. Biyomedikal araştırmalarda yanıt olarak sürelerin (muhtemelen kelimenin tam anlamıyla hayatta kalma) olması ve gözlem süresinin sonuna kadar olayı yaşamamış olması nedeniyle sansürlenen hastaların olması yaygındır. Aynı zamanda, gözlem süresi boyunca bırakılan veya takibi kaybeden hastalara sahip olmak. (Belki de uzaklaştılar ve temas kayboldu.) Hayatta kalma süresinin> son temas olduğunu biliyoruz, ancak gözlem süresinin sonundan daha kısa olabilir.
gung - Monica'yı eski

Durum B yanlış veya kontamine veriler için değildir. Bazı nitel kriterlere (mal türü, ülke, istekliler serveti, ...) dayalı olarak sessiz ve açık müzayedelerin bir karışımının nihai fiyatını tahmin etmek istediğimizi varsayalım . Sessiz açık artırmalar için sadece ilk teklifi (1.000 dolar gibi) biliyoruz, ancak nihai fiyatı bilmiyoruz. Bana bir tür sansür modellemesi kullanarak sessiz müzayede verilerini kullanabileceğim söylendi.
Robert Kubrick

1
@gung Bu cevabı kimin yazdığı göz önüne alındığında, kesinlikle ekonometrik bir yaklaşımdır!
Alecos Papadopoulos

1
@RobertKunrick Açıkladığınız durum B vakasıyla eşleşmiyor. Durum B'nin tarif edildiği şekilde, bir dizi değeri gözlemliyoruz ve sonra gözlemlenen değerlerden bazılarının gerçekte imkansız olduğu söyleniyor. Bu açık artırma örneği ile nasıl eşleşiyor?
Alecos Papadopoulos

Lütfen bunu bir eleştiri olarak alma, @AlecosPapadopoulos. Yanlış bir şey olduğunu sanmıyorum. Sadece terimlerin farklı alanlarda farklı kullanıldığını belirtmek istiyorum ve bu kural stat / biostat değil.
gung - Monica'yı eski

2

Benim için sansür, gözlemiyle ilgili kısmi bilgileri gözlemlediğimiz anlamına gelir . Ne bu demek değil gözlemleyerek daha, yani gözlemlemek nerede hayata geçirilmesidir örnek uzayın bazı rasgele irileşmesi olduğunu. İlk önce örnek uzayının bölümünü , sonra oluşturduğumuzu ve de (aynı zamanda tüm ). Bilgisiz sansürlemeZiZi=ziZiaiaiAiAiZZiAiAiZiAiI(ZiA)AAiZi , örneğin, daha sonra demektir bağımsızdır .AiZi

Bu biraz sezgisel ve özensiz. Muhtemelen sansürlü olduğunu düşünmek için dağılımının dejenere olmamasını da . Biz de belirtebilir, tanımlanan bu bir genellemedir eksik veriler için bir diyebilirsiniz eğer eksik nerede olduğunu ise örnek uzayını ve eksik olduğunu söyleyin . Biri " sansürlendi " , takip ediyorlarsa, genellikle "Z i Z i = ( X i , Y i ) Y i a i = { x } × Y Y Y Z i a i = Z Z i Z i[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×YYYZiai=ZZiZi sansürlenmiş, ancak eksik değil ".


1

Sansürlü ve kesik veriyi ve eksik verileri ayırt etmek önemlidir .

Sansürleme sağkalım analizi ve eldeki olay burada zaman-olay sonuçların konusuna özellikle geçerlidir bireysel olduğunu gözlemleyerek durdurulduğu noktadan sonra bir zamanda meydana gelmiş olduğu varsayılır . Bir örnek, erkeklerle seks yapan erkekler (MSM) ve prospektif bir çalışmada çalışma koordinatörleriyle temasa geçen ve durdurulan HIV riskidir.

Kesme , gerçek değerin bu noktadan büyük veya küçük olduğu bilinen belirli bir noktayı değerlendiren sürekli bir değişken için geçerlidir. Bir örnek, HIV'li kişilerin izlenmesi ve tam üflenmiş AIDS'in gelişmesidir, 300'ün altına düşen CD4 hücre sayıları, tespitin alt sınırına (300) göre değerlendirilir.

Son olarak, eksik veriler , hiçbir anlamda gözlenmeyen gerçek değerlere sahip verilerdir. Sansürlü veriler olay zamanı verilerini kaçırmaz veya kesilmez.


1
"Kısaltma" nın başka bir kullanımı daha vardır: kesintilerin üstündeki / altındaki gözlemlerin elde edilemediği veri üreten bir süreci tanımlamak. Klasik bir örnek, türlerin sadece yumurtadan tanımlanabileceği belirli bir kuş türünün yuvalarında bulunan no.eggs sayımını içerir; boş yuvalar herhangi bir türden olabilir, bu yüzden hayır. sıfır bilinmemektedir. Hayır ise. Yumurtalar bir Poisson dağılımını takip eder, boş olmayan yuvalardan yumurta sayımı kesilmiş bir Poisson'u takip eder. Bu nedenle, kesme, iyi tanımlanmış belirli bir mekanizmaya göre eksik veriler üretir.
Scortchi - Eski durumuna getirin Monica

1
... Hücre sayımı verileriniz, çoğu insanın, olay zamanı ölçümleriyle sınırlı olmayan terim anlayışına göre sansürlenir, çünkü hücre sayısının 300'ün altında olması dışında her bir konu hakkında her şeyi bilirsiniz; Burada "kısaltma" (alternatif olarak "Winsorization") analiz yöntemini açıklar, yani 300'ün altındaki değerlerin 300'e
eşitmiş

Sansür sağkalım analizi kavramına açık bir referans: itl.nist.gov/div898/handbook/apr/section1/apr131.htm .
Eric O Lebigot

-1
  1. Sansürlü: Bu, ilgilenilen olaydan önce gözlem süresinin kesildiğini belirtmek için kullanılan bir terimdir. Yani '' sansürlenmiş veriler '' belirli bir olayın gerçekleşmediği veya hiç gerçekleşmediği süresinin

3
Siteye hoş geldiniz. Bu bir kaynaktan kopyalandıysa, lütfen kaynağı belirtin.
gung - Monica'yı eski

3
Sansür, zamana bağlı gözlemlerden çok daha fazlası için geçerlidir. Örneğin, tespit sınırının altındaki kimyasal konsantrasyon ölçümleri de sansürlenir.
whuber

@whuber: Bu gözlemde dostane bir değişiklik önerebilir miyim? Tespit sınırının altına düşen kimyasal konsantrasyonlar gerçekten sansürlenir, ancak muhtemelen negatif olamadıkları için, analizler bunları sıfırda kesilmiş olarak kabul etmelidir. Kesilme sansürü ayrımını kendi anlayışım, kesmenin temel dağılım için mümkün olan parametre aralığı için geçerli olduğudur.
DWin

@DWin Bu düşünceli açıklama için teşekkür ederim. Sadece ilk noktaya katılıyorum. Bununla birlikte, analiz ettiğim veri kümelerinin büyük çoğunluğunda, konsantrasyonları logaritma olarak yeniden ifade etmek gerekiyordu - ve orada ayrım kayboluyor. Arka planın çıkarıldığı diğer veri kümelerinde (radyolojik ölçümler gibi), kesin bir sol uç noktası da yoktur. İkinci noktan bana alışılmadık gibi geliyor: Bir dağıtım ailesinin alt kümesini oluşturmak için kullanılan "kesme" yi hiç görmedim.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.