(oldukça uzun yazı, özür dilerim. Çok fazla arka plan bilgisi içerir, bu yüzden alttaki soruya atlamaktan çekinmeyin.)
Giriş: İkili bir endojen değişkenin ( sürekli bir sonuç üzerindeki etkisini tanımlamaya çalıştığımız bir proje üzerinde çalışıyorum , . Rastgele olduğu gibi atandığına kesinlikle inandığımız bir araç geliştirdik .
Veriler: Verilerin kendisi, 1000 birime yayılmış yaklaşık 34.000 gözlem ve yaklaşık 56 zaman periyodu içeren bir panel yapısındadır. yaklaşık 700 (% 2) gözlem için 1 değerini alır ve bunu yaklaşık 3000 (% 9) için alır. 111 (% 0.33) gözlem her ikisi üzerinde 1 puan ve ilgili ve bir gözlem üzerinde 1 puan için o kadar büyük olasılıkla iki kat de puanları 1 ise üzerine .
Tahmin: Stata'nın ivreg2 prosedürü ile aşağıdaki 2SLS modelini tahmin ediyoruz:
Burada diğer dışsal değişken bir vektördür, tahmin edilen değer ilk aşamasından ve ve hata terimlerdir.
Sonuçlar: Her şey iyi çalışıyor gibi görünüyor; tahmini ilk aşamada oldukça önemlidir ve tahmini ikinci aşamada oldukça önemlidir. Diğer eksojen değişkenler için olanlar da dahil olmak üzere tüm işaretler beklendiği gibidir. Ancak sorun şu ki, - faiz katsayısı - tahmini büyüktür (ya da en azından yorumladığımız şekle göre).
, ortalama 2 ve ortalama 17 ile yaklaşık 2 ila yaklaşık 26 arasındadır, ancak tahmini 30 ila 40 arasındadır (spesifikasyona bağlı olarak)!
Zayıf IV: İlk düşüncemiz, bunun enstrümanın çok zayıf olmasıydı; yani, endojen değişkenle çok fazla ilişkili değildir, ancak durum böyle görünmemektedir. Enstrümanın zayıflığını incelemek için , panel verisine sahip olduğumuz ve birim seviyesi).
AR testlerine göre, ikinci aşama katsayısı için% 95 güven aralığının alt sınırı 16 ile 29 arasındadır (yine spesifikasyona bağlı olarak). Reddetme olasılığı sıfıra yakın herhangi bir yerde tüm değerler için pratik olarak 1'dir.
Etkili gözlemler: Her bir birim ayrı ayrı kaldırılmış, her bir gözlem ayrı ayrı kaldırılmış ve birim kümeleri kaldırılmış olarak modeli tahmin etmeye çalıştık. Gerçek bir değişiklik yok.
Önerilen çözüm: Birisi, enstrümanlı orijinal metriğinde (0-1) tahmini etkisini , ancak öngörülen sürümünün metriğinde özetlememizi önerdi . ortalama ve medyan yaklaşık 0.02 ve SD yaklaşık 0.018 ile -0.01 ila 0.1 arasında değişmektedir. Biz tahmini etkisini özetlemek olsaydı bir tek SD artış, diyelim ki, tarafından , olurdu (diğer özellikler hemen hemen aynı sonuçları verir). Bu çok daha makul (yine de önemli) olacaktır. Mükemmel bir çözüm gibi görünüyor. Hiç kimsenin bunu yapmadığını görmedim; herkes ikinci aşama katsayıyı orijinal endojen değişkenin metriğini kullanarak yorumluyor.
Soru: Bir IV modelinde, endojen değişkente bir artışın tahmini etkisini (gerçekten LATE) tahmin edilen versiyonunun metriğini kullanarak özetlemek doğru mu? Bizim durumumuzda, bu metrik olasılık tahmin edilmektedir.
Not: İkili bir endojen değişkenimiz olsa bile (ilk aşamayı LPM yapıyor) 2SLS kullanıyoruz. Angrist & Krueger (2001): “Enstrümantal Değişkenler ve Tanımlama Araması: Arz ve Talepten Doğal Deneylere”) Adams, Almeida ve Ferreira'da (2009) kullanılan üç aşamalı prosedürü de denedik: “ Kurucu-CEO'lar ile firma performansı arasındaki ilişkiyi anlamak ”. Bir probit modelinin ardından 2SLS'den oluşan ikinci yaklaşım, daha küçük ve daha duyarlı katsayılar verir, ancak 0-1 metrikte (yaklaşık 9-10) yorumlandığında hala çok büyüktür. Cerulli'nin ivtreatreg'indeki probit-2sls-opsiyonu ile yaptığımız manuel hesaplamalarla aynı sonuçları elde ediyoruz.
etregress/treatreg
mi