Korelasyonla nedensellik arasındaki ayrım Google ile ne ölçüde ilgilidir?


21

bağlam

Bu sitedeki popüler bir soru " Ortak istatistiksel günahlar nelerdir? " Günahların biri varsayarak belirtilen "korelasyon nedensellik ima ..." bağlantısını

Ardından, 5 yükseltme ile yapılan yorumlarda şu öneriliyor: "Google'ın yılda 65 milyar ABD doları tutarında bir fark yaratmadığı anlamına geliyor."

Bir ışık dalgalanmasını aşırı analiz etme riski altında, bunun korelasyon ile nedensellik arasındaki ayrımın ve farkın pratik olarak ilgililiğinin ortadan kaldırılmasında yararlı bir tartışma noktası olabileceğini düşündüm; ve belki de makine öğrenmesi ile korelasyon ve nedensellik arasındaki ayrım arasındaki ilişkiyi vurgulayabilir.

Yorumun, arama motoru sonuçlarının oluşturulmasında ve reklam gösterimi ile ilgili teknolojilerin altında yatan teknolojileri ele aldığını düşünüyorum.

Soru

  • Google’ın gelir yaratma ile ilgili korelasyon ve nedensellik arasındaki ayrım, belki de özellikle reklam gösterimi ile ilgili gelir ve reklam üretme teknolojilerine ve kaliteli arama sonuçlarına odaklanarak ne kadardır?

Çok komik, bu yoruma biraz önce bakıyordum.
Iterator,

2
Devrimler blogu geçen hafta Google’ın çevrimiçi reklamcılığın daha etkili olması için R’yi nasıl kullandığını açıkladı . Ne yazık ki çok fazla ayrıntıya girmiyorlar ...
nico

Yanıtlar:


13

Basit cevap, Google’ın (veya herhangi birinin) müdahale etmeyi düşündükleri derecedeki farkı dikkate alması gerektiğidir . Nedensel bilgi, belirli bir alandaki müdahalelerin (eylemlerin) etkilerini anlatır.

Örneğin, Google, reklamlardaki tıklama oranlarını artırmak, GMail veya Google+ kullanıcılarının sayısını artırmak veya kullanıcıları Bing yerine Google’ı kullanmaya teşvik etmek istiyorsa, potansiyel eylemlerin etkilerini bilmeleri gerekir (örneğin, Google’ın basılı dergilerde tanıtımını yapan veya sırasıyla Google ile Bing arama sonuçları arasındaki farkları yayınlayan reklamların font boyutu. Korelasyon, Google’ın arama motorunun iyi çalışmasını sağlayacak kadar iyidir, ancak diğer sistemleri (ve genel olarak işleri) için bu fark genellikle önemlidir.

Google’ın (ve web tabanlı işletmeleri olan birçok firmanın) sürekli çevrimiçi deneyler yaptığını belirtmek önemlidir. Nedensel bağımlılıkları tanımlamanın ve tahmin etmenin en basit ve en iyi yollarından biridir.


(+1) öngörücüleri a) ilişkilendirdiği ve b) gelecekteki sonuçları doğru bir şekilde tahmin edebileceği sürece, bir nedensellik ile ilgilenmemelidir.
steffen

2
Davranış bilimlerinde deneysel araştırmaların yeniden canlanması dönemine giriyoruz. 1950'lerde, neredeyse tüm istatistik, tarımdaki uygulamalarla deneysel bir araştırmaydı. Fakat 1980'lerde insanlar, bu tekniklerin çoğu sosyal bilimlerde yapabileceğiniz tek şey olan gözlemsel verilere pek yardımcı olmadıklarını kabul ettiler. Şimdi, en azından çevrimiçi pazarlama araştırmasının nişlerinde, Amazon veya Google veya Bing iseniz, deneyler yapabilir ve mümkün olan en temiz nedensel çıkarım şeklini alabilirsiniz.
StasK

@StasK, Muhtemelen "kısa" bir denemeyle bile uğraştıkları örneklem büyüklükleri göz önüne alındığında, oldukça faydalı sonuçlar verebilecekleri. Ne kadar değerli bir hazine olmalı.
Brandon Bertelsen,

Google’ın "gruplar" tesisinin gerçekten, gerçekten zayıf olduğunu belirtmek ilginçtir. Bir nevi iyi olmakla bağıntılı bir grup tartışma tesisi inşa ettikleri gibi, ama bir grup tartışma tesisinin iyi olmasına neyin sebep olduğunu bulamadılar. Ancak bu pazarlamada sık rastlanan bir sorundur - çoğu zaman rakip ürünlerin özellikleri, özellikler için temel motivasyonu anlamadan kopyalanır.
Daniel R Hicks

1
@StasK: Gerçek dünya muhtemelen sizin iddia ettiğiniz kadar ideal değildir. Deneylerin nedensel çıkarım yapmak için harika bir araç olduğu konusunda hemfikirim. Bununla birlikte, deneyler belirli problemleri de ortaya çıkarmaktadır. Bazen bir deneyden ziyade gözlemsel bir çalışma ile nedensel çıkarımlar yapmak daha iyi olabilir. Bir eleştiri, kontrollü bir deneyden kaynaklanan sonuçların "gerçek bir canlı" ortamına genelleştirilebileceği olabilir. Bazı yazarlar buna "dış geçerlilik" adını verir.

6

İlk olarak, sadece bir quip ve yanlıştır. Google’ın çok yetenekli istatistikçileri, bilgi alma uzmanları, dilbilimciler, ekonomistler, bazı psikologlar ve diğerleri var. Bu millet, korelasyon ve nedensellik arasındaki fark konusunda birçok istatistikçi olmayan kişiyi eğitmek için çok zaman harcıyor. Büyük bir organizasyon olduğu göz önüne alındığında, cepler, hatta büyük cepler, cehalet olabilir, ancak iddia kesinlikle yanlıştır. Ayrıca, bu eğitimin çoğu müşterileriyle, özellikle de reklamverenlerle karşı karşıya.

Daha derin cevap: Fark çok önemlidir. Yalnızca arama sonuçları sıralamasına bakın ve benzerlik, puanlama işlevleri vb. Ölçümlerini dahil etmek için sadece "korelasyonun" ötesine geçmeme izin verin. Bazı sayfalar belirli sorgular için iyi sonuçlar olarak ölçülür. Bunlar, sıralamaları için önemli olan çeşitli öngörücü özelliklere sahiptir. Sorguların iyi sonuçları olan bu iyi sayfaların aksine, aynı sorgular için çok kötü sonuçlar veren bir sayfa web sayfasıdır. Ancak, bu sayfaların oluşturucuları, sayısal açıdan iyi sayfalar gibi görünmelerini sağlamak için çok çaba gösterir .metin eşleşmeleri, internet bağlantısı ve daha fazlası gibi. Ancak, sadece bu sayfaların sayısal olarak "iyi" sayfalara benzer olması, bunların aslında iyi sayfalar olduğu anlamına gelmez. Bu nedenle, Google, hangi makul özelliklerin (ayrı) iyi ve kötü sayfaları ayırt edeceğini belirlemek için çok çaba harcadı ve yatırım yapmaya devam edecek.

Bu tam bir korelasyon ve nedensellik değil, ama bundan daha derin. Belirli sorgular için iyi sayfalar, birbirleriyle alakasız veya kötü sayfalardan benzer ve farklı göründüğü sayısal bir alana eşlenebilir, ancak sonuçların özellik alanının aynı bölgesinde olması, aynı "yüksek kaliteli" alt kümeden geldiği anlamına gelmez Web

Daha basit cevap: Çok basit bir bakış açısı sonuçların sıralamasını ele almaktır. En iyi sonuç ilk önce olmalıdır, ancak yalnızca bir şeyin ilk sıralandığı için bunun en iyi sonuç olduğu anlamına gelmez. Bazı puanlama ölçütlerine göre, Google’ın sıralamasının, altın kalite standardı standardıyla ilişkili olduğunu görebilirsiniz; ancak bu, sıralamanın, sonuçların kalite ve alaka açısından gerçekten bu sırada olduğu anlamına geldiği anlamına gelmez.

Güncelleme (üçüncü yanıt): Aşırı zaman, hepimizi ilgilendiriyor başka bir yönü vardır: o en iyi Google sonuç, yetkili kabul edilebilir olmasıdır , çünkü o Google'da ilk sonucudur. Bağlantı analizi (örneğin, "Sayfa Sıralaması" - bağlantı analizi için bir yöntem) algılanan otoriterliği yansıtmak için bir girişim olsa da, zaman zaman bir konudaki yeni sayfalar Google'daki en iyi sonucu bağlayarak bu bağlantı yapısını güçlendirebilir. Daha yetkili olan daha yeni bir sayfanın, ilk sonuç ile ilgili olarak headstart ile ilgili bir sorunu var. Google şu anda en alakalı sayfayı sunmak istediğinden , "zengin-zengin" denilen bir fenomen de dahil olmak üzere çeşitli faktörler, korelasyonun algılanan nedensellik üzerindeki örtük etkisinden dolayı ortaya çıkmaktadır.

Güncelleme (dördüncü cevap): Gerçekliğin “yansımaları / çıkıntıları” sonucu korelasyonu ve nedenselliği nasıl yorumlayacağına dair bir fikir edinmek için Platon'un Mağaradaki Alegorisini okumanın yararlı olabileceğini anladım (aşağıdaki yorum için). biz (veya makinelerimiz) onu algılıyoruz. Pearson'un Korelasyonu ile kesinlikle sınırlı olan korelasyon, yanlış anlama birliği (sadece korelasyondan daha geniş) ve nedensellik konusunun yorumlanması olarak çok sınırlıdır.


Katılmıyorum. Birisi öngörücüleri yapay bir yüksek sayfa sıralaması oluşturmak için kötüye kullanırsa, hedef, Google’ın sayfa sıralaması algoritması oluşturulurken tasarlananın tersine, öngörücüleri belirtir. Gerçek metrik aynı kaldığından (sayfa sıralamasının yalnızca yaklaşık olduğu "doğru sayfa") tahminciler korelasyonunu kaybeder ve bu nedenle değiştirilmeleri gerekir. Bu nedenle, google gerçek "" doğru sayfa "ölçüsüne ilişkin nedensellik ile ilgilenmez, ancak sayfa sıralaması adı verilen yaklaşık değere önem verir.
steffen

Alınma ama birkaç konuda kafan biraz karıştı. "PageRank" açıkça tanımlanmış bir kavram ve sadece bir öngörücüdür. Ele aldığınız asıl mesele, kullanıcı beklentilerini karşılamanın yanı sıra bir eğitim seti tanımlamak ve oluşturmakta yer alan endüstriyel süreçtir. Ne yazık ki, yorumlar, uygulamalı makine öğrenmeye uzun bir giriş yapmaya başlamak için berbat bir yer.
Yineleyici

Öngörücü üretimi ve uzmanlık bilgisi ile değerlendirme sürecinde yalnızca “nedensellik” tahmincilerinin yaratıldığını mı kastediyorsunuz? Böyle bir süreci takip ettiği ve deneme yanılma yaklaşımına geri dönmediği sürece, haklısınız, google umurunda;).
steffen

Çok haklısın. Sorun, zamanla , sizi engelleyen rakipler olduğunda nedenselliği yansıtan belirleyicileri incelemeye çalışmak son derece zorlaşıyor. Bir tahmincinin bir nedensel açıklaması yoksa (çünkü doğada nadiren gerçekten nedensel oldukları için), o zaman kötülerin evrimleştiği ve öngörme alanı bölgesini tıkadığı zaman haklı çıkarmak zordur.
İteratör

2
@ Brandon: Şaka yok. Son olayları veya yaklaşmakta olan olayları aramaya çalıştığımda, bu en iyi örnektir. Giderek daha sık, ilgili sayfaları elde etmek için o yıla veya hatta o anki MM-YYYY'ye (veya gelişmiş arama yapmak) girmem gerekiyor. Bağlantı yapısı ve tazelik arasındaki bir sapma ve Google benden daha fazla yardım almadan yanlış anlıyor. Aslında, bu beni eski sayfaları görmezden gelmeye çalışmaktan rahatsız ettiğim için birkaç kez Bing'e yönlendirdi. Aynı durum SO için de geçerlidir: ilk cevaplar daha sonraki cevaplardan daha fazla oy alır, ki bu daha doğru olabilir. :)
Iterator 19

5

Quipin yazarı burada.

Bu yorum kısmen David Mease'in (Google'da) söylediği bir konuşmadan esinlendi ve burada söylediğim gibi, araba sigortası şirketleri, erkek olmanın daha fazla kaza yapmasına neden olmak zorunda kaldıklarında daha fazla ücret talep etmeleri umrunda değil . Aslında, bir denemede birisinin cinsiyetini değiştirmek imkansızdır, bu yüzden neden asla gösterilemez.

Aynı şekilde, Google gerçekten renk kırmızı ise bakım gerekmez markaları , o reklamı için daha şarj edebilirsiniz, birisi bir reklamı tıklayın daha tıklamayla ilişkili eğer.

Wired: Theory of End: Data Deluge bu makaleden ilham almıştır . Alıntı:

"Google’ın kuruluş felsefesi, bu sayfanın neden bundan daha iyi olduğunu bilmiyoruz: Eğer gelen bağlantıların istatistikleri öyle diyorsa, bu yeterli."

Açıkçası, Google nedensellik ve korelasyon arasındaki farkı bilen çok zeki insanlar var, ama onların durumunda, umursamayan bir sürü para kazanabilirler.


1
Detaylandırmak için ... Bahsettiğim gibi, Google'da David Mease'in yaptığı gibi gerçekten umursayan pek çok insan var. (Btw, Stanford'da değil, kaçırdığım haberler olmadığı sürece; belki de 2007 kursuna katıldınız mı?) araba kullanma yetenekleri. İyi otomobil mühendisleri ve araştırmacılar, bununla birlikte daha iyi çalışmasını sağlıyor. Google’daki mühendisler ve araştırmacılar için de aynı şey. Ne yazık ki, bu Wired makalesi Norvig'in tezinin en belirgin sunumu değildir.
Yineleyici

Bağlam için teşekkürler Neil. Umarım yorumunuzu bir soru için ilham kaynağı olarak kullanmamın sakıncası yoktur.
Jeromy Anglim

@ jeromy, hiç de değil
Neil McGuigan

1

David ile aynı fikirdeyim : Müdahale etmeyi düşünüyorsanız, fark önemlidir ve Google, kontrollü deneyler yaparak müdahalelerin sonuçlarını test edebilir. (Bu tür deneylerin en uygun zamanlaması önceki deneylerden artı gözlemsel verilerden öğrendiğiniz nedensel hipotezler dizinize bağlıdır , bu yüzden korelasyonlar hala faydalıdır!)

Google'ın nedensel ilişkileri öğrenmek istemesinin ikinci bir nedeni var. Nedensel ilişkiler diğer oyuncuların müdahalelerine daha güçlüdür . Müdahaleler yerel olma eğilimindedir, bu nedenle nedensel ağın bir bölümünü değiştirebilir ancak diğer tüm nedensel mekanizmaları değişmeden bırakabilir. Aksine, uzak bir nedensel bağlantı koparsa, öngörücü ilişkiler başarısız olabilir. İnternet sürekli değişiyor ve Google, çevrimiçi ortamın hangi özelliklerinin bu değişikliklere daha dayanıklı olduğunu merak etmeli.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.