Gerçek dünyadaki bir ağdaki / grafikteki tüm kenarların istatistiksel olarak şans eseri olması muhtemeldir?


11

Bu yazıda özetlenen omurga ağ çıkarma yöntemini kullanıyorum: http://www.pnas.org/content/106/16/6483.abstract

Temel olarak, yazarlar, grafikteki her kenar için, kenarın tesadüfen gerçekleşmiş olabileceği olasılığını üreten istatistiklere dayanan bir yöntem önermektedir. 0,05'lik tipik istatistiksel anlamlılık kesimini kullanıyorum.

Bu yöntemi birkaç gerçek dünya ağına uyguluyorum ve ilginç bir şekilde bazı ağlar önemli derecede kenarsız. Bunun ağ için ne anlama geldiğini anlamaya çalışıyorum. Metodu bir ağa uyguladığım ve hiçbir kenarı önemli olmayan başka bir zaman yöntemi, oluşturduğum rastgele ağlara uyguladığım, tam olarak beklediğimiz şeydi.

Örnek bir gerçek dünya ağı olarak, The Economist'in son 25 yılda ABD Senatosu'nun kutuplaşmasını gösteren ağ görüntülemesini görmüş olabilirsiniz: http://www.economist.com/news/united-states/21591190 birleşik devletler-amip . Bu ağlara omurga ağ çıkarımı yöntemini uyguladım ve hiçbir kenar anlamlı olarak ortaya çıkmadı. Görünüşe göre ham kenarlar tercihli bağlanma ve kümelenme gösterse de, bu tesadüfen mi? Senato oylama ağı ağı esasen rastgele mi?

Yanıtlar:


6

Omurga yöntemlerinin ardındaki sıfır hipotezi

Belirli bir k derecesi düğümünün bağlantılarına karşılık gelen normalleştirilmiş ağırlıklar, muntazam bir dağılımdan rastgele bir atama ile üretilir.

"Önemli" kenarlar yoksa, sıfır hipotezi tüm grafik için geçerlidir, yani kenar ağırlıkları, bağları göndermek ve almak için düğüm eğilimlerinden kaynaklanır.

Analiz ettiğiniz ilişkilere bağlı olarak, omurga yöntemi uygun olmayabilir. Yöntem, kavramsal olarak tek mod ağırlıklı ağlar için en iyi yöntemdir. İki modlu ağlar, ağırlıklı tek modlu bir ağ olarak yansıtılabilir, ancak genellikle bunu yapmak mantıklı değildir.

Ekonomist'teki örneğinizden yola çıkarak, Senato oylamasını paylaşılan oy sayısıyla ağırlıklı tek modlu bir ağ olarak analiz etmek mantıklı değil. Senatoda oy kullanmak imzalı, iki modlu bir ilişkidir. Senatörler (i) bir mevzuat parçasıyla (j) ilişki içerisindedirler ve oy kullanmaktan kaçınırlar (0) veya mevzuata (+1) veya (-1) karşı oy verirler. Ağı ağırlıklı tek modlu bir anlaşma ağına dönüştürmek için, omurga analizi yapmak, verilerin ciddi bir şekilde azalması olacaktır. Bazı mevzuat parçaları siyasi olarak daha bölücüdür ve bazılarının diğerlerinden daha fazla oyu vardır - omurga yöntemleri bu mekanizmaları yakalayamaz.

Omurga yöntemleri yerine Koşullu Düzgün Grafik (CUG) testlerini göz önünde bulundurmak isteyebilirsiniz. Bu testlerin arkasındaki fikir, belirli grafik seviyesi özelliklerinin (örn. Kümeleme, ortalama yol uzunluğu, merkezileşme, homofilik) tesadüfen ortaya çıkıp çıkmadığını belirlemektir. İşlem aşağıdaki gibidir:

  1. Gözlemlenen grafikten f ölçümü alın
  2. Gözlenen grafiğin belirli özelliklerini kontrol eden rastgele bir grafik oluşturun (örneğin, boyut, kenar sayısı, derece dağılımı, vb.)
  3. Rastgele grafikten f ölçümü alın
  4. Boş bir dağıtım oluşturmak için 2. ve 3. adımları tekrarlayın (ör. 1000)
  5. Gözlenen ölçümü null dağılımı ile karşılaştırın

İki modlu ağlar için, gözlemlenen grafiğe izin vererek rastgele grafik oluşturmak mantıklı olacaktır (R'deki tnet ve statnet'in iki modlu ağlara izin vermek için rutinleri vardır). Ölçüm f tek modlu bir ağ gerektiriyorsa, tek modlu bir ağ olarak yansıtılmadan önce iki modlu ağda rasgeleleştirme işlemi yapılmalıdır.


4

Alıntı yaptığınız makalede, yazarlar karmaşık bir ağda "[model] düğümlerin [modellenmiş] sistemin elemanlarını temsil ettiğini ve ağırlıklı kenarların bir etkileşimin varlığını ve göreceli gücünü tanımladığını düşünmektedirler (benim tarafımdan vurgu) .

Araştırdığınız ağda, Economist makalesini doğru anlarsam, 2 senatör arasında benzer şekilde en az 100 kez oy vermeleri halinde bir bağlantı vardır. Bu nedenle, bağlantılar etkileşimleri değil, benzerlikleri (senatörlerin oy verme davranışı arasında) modellemektedir. Deneyimlerime göre, benzerlik ağları, etkileşim ağlarıyla aynı derecede dağılım göstermemektedir, yani heterojen değildir. Ayrıca, ağ çıkarılırken kullanılan eşik parametresinin (burada: 100) bazen derece dağılımı üzerinde güçlü bir etkisi vardır.

Dahası, Economist makalesinde ağırlıklardan bahsetmedim. Yine de, ağırlıkların varlığı Ángeles Serrano ve arkadaşlarının çalışmalarında açıklanan yöntemde önemli bir nokta gibi görünmektedir . sorunuza atıfta bulunuyorsunuz.

Bu iki gözlemden, bu tür ağları işlemek için tasarlanmadığından, yöntemin bu veriler üzerinde doğru bir şekilde performans göstermemesi mümkündür. Belki derece dağılımını kontrol edebilirsiniz: karakteristik bir değer üzerinde mi yoksa heterojen mi? Ve ağırlıklar ne olacak, hiç var mı?


Verileri kendim kaynak web sitesinden çoğalttım, bu yüzden ağırlıkları dahil ettim ve keyfi eşik değerini uygulamadı. Bu nedenle, omurga yöntemini uyguladığım verilerin bu sorunlardan etkilenmemiş olması gerektiğini düşünüyorum. Derece dağılımını kontrol etmek için iyi bir fikir - Bir göz atmam gerek!
Randy Olson
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.