En az sayıda vektör çiftini arıyorum L ortak özellikler.
Bu sadece ikili özellik vektörlerinin bir iç ürünüdür. İç çarpım daha büyük olduğundaL−1, parite en azından Lortak unsurlar. Bu nispeten hızlı bir hesaplama olmalıdır - en azından, bu veriler için savurgan ve yavaş olacak olan öklid mesafesinden daha hızlı. Çiftleri aradığınızı şart koştuğunuz için, bu, her vektörü karşılaştırmak için doğası gereği hesaplamaları yapmanız gerektiği anlamına gelir .(N2)
Birbirine yakın olan noktaları bulmak aslında bir kümelenme sorunudur. Ancak, tanıdığım kümeleme algoritmalarının ilk adımı çift mesafeleri veya benzerlikleri hesaplamaktır. Eminim birisi daha verimli alternatifler geliştirmiştir. Terminoloji hakkında bir nokta: en az ortak komşusuna sahip olmak , bir uzaklık olarak değil, benzerlik olarak ifade edilir ! İç ürünler, bu durumda, normal olmayan kosinüs benzerlikleridir.L
Bunu, bir gözlem için özellik vektörünün toplamı (bu durumda norm ile aynıdır) büyük olduğunda iç ürün hesaplamasını gerçekleştirerek daha izlenebilir hale getirebilirsiniz , çünkü bu ikili özellik vektörü için imkansızdır. bu toplam den küçük olduğunda ölçütümü karşılayacak başka bir ikili özellik vektörü olan bir iç ürüne sahip olmak . Açıkçası, bu toplamları hesaplamak sadece karmaşıklığıdır, bu yüzden iç ürün adımının büyüklüğünü azaltmanın ucuz bir yoludur.L−1LO(N)
Ancak bu sorunun kapsamını azaltmanın klasik yolu, ek ön filtreleme yapmaktır. Özellikle bir, nadir görülen bir özellik 1 değerini aldığında ilgileniyor musunuz? Öyleyse, yalnızca bu özellik vektörleri için hesaplama yapın.
Ya da belki probleminizi yeniden çerçevelemekten faydalanabilirsiniz. Örneğin, örneklemenin güzel özelliklere sahip olduğu bilinmektedir; çıkarımsal istatistikler bu fikir üzerinde oldukça derinlere doğru gelişir. Bu nedenle, belki de tüm veri kümesini analiz etmek mümkün değildir, ancak küçük bir örneği incelemek tamamen mümkündür. Hangi soruyu cevaplamaya çalıştığınızı bilmiyorum, ancak denemenizi dikkatli bir şekilde tasarlarsanız, doğrulama amacıyla yeterli veri kaldığında yalnızca birkaç bin gözlemden kaçınabilirsiniz.
Bazı ek düşüncelerden sonra, üzerinde çalıştığınız verilerin bir tür grafiği olduğuna dair güçlü bir önsezim var . birkaç bağlı bileşenden oluşması çok mantıklıdır, bu durumda bir grafik kümesine ayırabilirsiniz , verilerin yanlığını azaltmanın mutlu yan etkisi ile. Grafik kabaca aynı boyutta sadece iki bağlı bileşen olsa bile, bu çift karşılaştırmaları kabaca toplam maliyete sahip demektir!GGGO(N2)14
Grafik simetrik ise, aşağıdaki gözlemler yardımcı olabilir:
- Grafiğinizin Laplacian'ı olarak tanımlayın; burada , diyagonal bir derece matrisidir (her özellik vektörünün toplamı) ve , bitişiklik matrisidir (özellik vektörlerinin bir matrise yığınlanması).P=D−ADA
- sayısı , bir öz değeri olarak bağlı bileşenlerinin sayısı olarak görünür . Grafiğin bağlı bileşenlerine ayrıştırılması ve yalnızca bu bileşenlerle çalışılması verilerinizin boyutunu azaltmanın yan etkisine sahip olacaktır; ilgi miktarınızı hesaplamak daha kolay olacaktır. Ancak özdüzenlemeyi hesaplamak bir milyon köşe için pahalı olacaktır ...0PG
- (Tam bir permütasyondan sonra) , bağlı bileşenlerinin Laplacians'ın blok çapraz matrisidir .PG
- P , pozitif semidefinittir. Bu neredeyse kesinlikle bir şekilde faydalıdır.
- cebirsel bağlantısı , ikinci en küçük öz değerinin değeridir . Bu, ne kadar iyi bağlandığını gösterir . Belki de ilgilendiğiniz bazı soruları cevaplayacaktır: ortak özelliklere sahip vektörler. Spektral grafik teorisi bu fikri biraz daha ayrıntılı olarak geliştirir.GPG
"Bu bir SNA sorunu mu?" Emin değilim. Bir uygulamada özellikler davranışı tanımlar ve benzer davranışlara sahip insanları birbirine bağlamak istiyoruz. Bu bir SNA sorunu yapar mı?
İnsanları davranışlara bağlayan iki taraflı bir grafiğiniz varsa, bunu bir bağlantı ağı , insanları satır ve davranışları sütun olarak düşünebilirsiniz . İnsanları ortak davranışları ile insanlara bağlamak istiyorsanız, hesaplayabilirsiniz . insanların ortak davranışlarıdır. Açıkçası, sorunuzu cevapladığı köşe noktaları kümesi .BBBT=AAijAij≥L