Sıralama sıralamasını etkinleştirmek için birden fazla değişkenden bir kalite endeksi oluşturma

22

Dört sayısal değişkenim var. Hepsi toprak kalitesinin ölçüsüdür. Değişken ne kadar yüksek olursa kalite de o kadar yüksek olur. Hepsi için aralığı farklıdır:

1 ile 10 arasında Var1

1000 ila 2000 arasında Var2

150 ile 300 arasında Var3

0 ile 5 arasında Var4

Sırasıyla başarılı bir şekilde sıralama yapacak dört değişkeni tek bir toprak kalite puanı ile birleştirmem gerekiyor.

Benim fikrim çok basit. Dört değişkeni de standardize edin, özetleyin ve ne alırsanız alınsın, sıralaması gereken puan. Bu yaklaşımı uygularken herhangi bir sorun görüyor musunuz? Tavsiye edebileceğiniz başka (daha iyi) bir yaklaşım var mı?

Teşekkürler

Düzenle:

Teşekkürler beyler. Çok fazla tartışma "alan uzmanlığı" haline geldi ... Tarım işleri ... Oysa daha fazla istatistik konuşması bekleniyordu. Kullanacağım teknik açısından ... Muhtemelen basit bir z-puanı toplama + bir deney olarak lojistik regresyon olacaktır. Örneklerin büyük çoğunluğu kalitesizliği% 90 olduğu için 3 kalite kategorisini bir kategoride birleştireceğim ve temelde ikili problemi yaşayacağım (kalitesizlik gibi). Bir taşla iki kuş öldürürüm. Örneğimi olay oranı cinsinden arttırıyorum ve uzmanlarımı numunelerimi sınıflandırmasına yardımcı olarak kullanıyorum. Uzman sınıflandırılmış örnekler daha sonra log-reg modeline uymak için uzmanlarla uyum / uyumsuzluk seviyesini en üst düzeye çıkarmak için kullanılacaktır ... Bu size nasıl geliyor?

ranking valuation

— user333
kaynak

19

Önerilen yaklaşım makul bir sonuç verebilir, ancak yalnızca kazayla. Bu mesafeden - yani, soruya değer katlanarak, kılık değiştirilen değişkenlerin anlamları ile - bazı problemler ortaya çıkıyor:

Her değişkenin "kalite" ile pozitif olarak ilişkili olduğu bile belli değildir. Örneğin, eğer 'Var1' için 10, "kalite", Var1 1 olduğunda kaliteden daha kötü anlamına gelirse? O zaman toplamı eklemek, yapabileceği kadar yanlış bir şeydir; çıkartılması gerekiyor .
Standardizasyon, “kalitenin”, verinin kendisine bağlı olduğuna işaret eder. Böylece, tanım farklı veri kümeleriyle veya bu verilere eklemeler ve silinmelerle değişecektir. Bu, "kaliteyi" keyfi, geçici, objektif olmayan bir yapı haline getirebilir ve veri kümeleri arasındaki karşılaştırmaları engelleyebilir.
"Kalite" nin tanımı yoktur. Ne anlama geliyor? Kirlenmiş suyun göçünü engelleyebilme? Organik süreçleri destekleyebilme? Bazı kimyasal reaksiyonları teşvik edebilme? Bu amaçlardan biri için iyi olan topraklar, diğerleri için özellikle zayıf olabilir.
Belirtildiği gibi sorunun hiçbir amacı yoktur: "kalite" neden sıralanmalı? Sıralama ne için kullanılacak - daha fazla analize giriş yapmak, "en iyi" toprağı seçmek, bilimsel bir hipoteze karar vermek, bir teori geliştirmek, bir ürünü tanıtmak?
Sıralamanın sonuçları açık değildir. Sıralama yanlış veya düşükse, ne olacak? Dünya daha aç, çevre daha kirli, bilim adamları daha çok yanıltılmış, bahçıvanlar daha fazla hayal kırıklığına uğrayacak mı?
Neden değişkenlerin doğrusal bir kombinasyonu uygun olmalıdır? Neden çoğaltılmamalı, üstelleştirilmemeli ya da posynomial ya da daha ezoterik bir şey olarak birleştirilmemeli ?
Ham toprak kalitesi ölçüleri sıklıkla yeniden ifade edilir. Örneğin, kütük geçirgenliği genellikle geçirgenliğin kendisinden daha faydalıdır ve kütük hidrojen iyonu aktivitesi (pH), etkinlikten çok daha faydalıdır. “Kaliteyi” belirlemek için değişkenlerin uygun ifadeleri nelerdir?

Bir kişi toprak biliminin bu soruların çoğuna cevap vereceğini ve değişkenlerin uygun bir kombinasyonunun herhangi bir “kalite” algısı için ne olabileceğini göstereceğini umuyordu. Eğer değilse, o zaman çok özellikli bir değerleme problemi ile karşı karşıya kalırsınız . Wikipedia makalesi, bunun ele alınması için düzinelerce yöntem listeliyor. IMHO, çoğu bilimsel bir soruyu ele aldıkları için uygunsuz. Güçlü bir teori ve ampirik konulara uygulanabilirliği olan az sayıdakilerden biri Keeney & Raiffa'nın çoklu özellik değerlendirme teorisidir.(MAVT). Değişkenlerin herhangi iki özel kombinasyonu için ikisinden hangisinin daha üst sıralarda yer alacağını belirlemenizi gerektirir. Bu tür karşılaştırmaların yapılandırılmış bir sırası (a) değerleri yeniden ifade etmenin uygun yollarını; (b) yeniden ifade edilen değerlerin doğrusal bir kombinasyonunun doğru sıralamayı üretip getirmeyeceği; ve (c) Eğer doğrusal bir kombinasyon mümkün ise, katsayıları hesaplamanıza izin verecektir. Kısacası, MAVT, belirli vakaları nasıl karşılaştıracağınızı bildiğiniz sürece, probleminizi çözmek için algoritmalar sunar.

— whuber
kaynak

RE: 1. Her dört değişken için de “sayı ne kadar yüksekse kalite” nin kesin olduğunu biliyorum: 2. İyi nokta. İki veri kümesini karşılaştırılabilir yapmak için ne yapabilirim

— user333

2

@ user Önerilerim son paragrafta yer almaktadır: tercihen, bilimsel literatürde "nitelik" in nicel bir ifadesini bulun. Bunun dışında MAVT uygulayın. Her ikisi de veri kümesinden bağımsız sabit bir formül üretiyor. Bu karşılaştırılabilirliği sağlar.

— whuber

1

@whuber, Mevcut bilgilere dayanarak biçimlendirici bir önlem alma sorunu olarak görülemiyordu, bu durumda Z-puanlarını toplamak sizin seslendirdiğiniz kadar kötü değil mi?

— Andy W,

3

@Andy "Biçimlendirme ölçüsü" ve "mevcut bilgiler" ile ne demek istediğinizi açıklayabilir misiniz? // Tarım için toprağa uygunluk önlemlerinin birçoğunun monoton olmadığını, hatta daha az lineer olmadıklarını belirtmeliyim: örneğin, bir bitki pH aralığında büyüyebilir, ancak pH her iki yönde de bu aralıktan daha fazla acı çekebilir . Eğer toprak özelliklerinin basit bir doğrusal kombinasyonunun tarımsal niteliklerle herhangi bir nesnel ilişkisi varsa, bu gerçekten özel bir durum olabilir - belki dar bir değer aralığı içeren olabilir.

— whuber

2

(y_{1}, \dots, y_{k})

$(y_1, \ldots, y_k)$

(x_{1}, \dots, x_{k})

$(x_1, \ldots, x_k)$

— whuber

3

Herhangi biri Russell G. Congalton'a “Uzaktan Algılanan Verilerin Sınıflandırılmasının Doğruluğunu Değerlendirme” konusunu incelemiş mi? Değişen matrisler için hata matrisi olarak bilinen bir tekniği, aynı zamanda “Normalize veri” olarak adlandırdığı bir terimi açıklar, böylece biri farklı vektörlerin hepsini alır ve “normalize eder” veya 0'dan 1'e eşit olmasını sağlar. 0 ile 1 arasında eşit değerler

— Ragus Paganini
kaynak

0

Tartışmadığınız bir diğer şey, ölçümlerin ölçeğidir. V1 ve V5 sıra sıralarına benziyor ve diğeri görünmüyor. Yani standardizasyon skoru çarpık olabilir. Dolayısıyla, tüm değişkenleri saflara dönüştürmek ve her değişken için bir ağırlık belirlemek daha iyi olabilir, çünkü aynı ağırlığa sahip olmaları pek olası değildir. Eşit ağırlıklandırma, varsayılan olarak "hiçbir şey yok" lafı daha fazladır. Bazı a priori ağırlıkları ile gelip bazı korelasyon veya regresyon analizi yapmak isteyebilirsiniz.

— Ralph Winters
kaynak

Tartımı belirlemek için korelasyon analizini nasıl kullanabilirim?

— kullanıcı333

Halihazırda mevcut olan genel bir kalite ölçüsünüz varsa, örneğin uzman görüşleri, (veya bunun için diğer değişkenleri bir vekil olarak kabul etmeye istekliysanız), en yüksek korelasyonlu değişkenleri seçip en yüksek ağırlığı verebilirsiniz.

— Ralph Winters,

-3

Ralph Winters'ın cevabını takiben PCA'yı (temel bileşen analizi) uygun şekilde standartlaştırılmış puanlar matrisinde kullanabilirsiniz. Bu size gelecekteki puanları birleştirmek için kullanabileceğiniz bir "doğal" ağırlık vektörü verecektir.

Bunu da, tüm puanların derecelere dönüştürüldükten sonra yapın. Sonuçlar çok benzerse, iki yöntemden birine devam etmek için iyi nedenleriniz vardır. Tutarsızlıklar varsa, bu ilginç sorulara ve daha iyi bir anlayışa yol açacaktır.

— Hans Engler
kaynak

4

Katılmıyorum. Birisi merak için madde-içi korelasyonlarla ilgileniyor olsa da, tüm değişkenler ortogonal olabilir ancak yine de kaliteye katkıda bulunur. Aptal bir örnek için Antarktika'daki toprak en uygun azot içeriğine sahip olabilir, ancak uygun bir iklim olarak yeterli olacağından şüpheliyim.

— Andy W,

@Andy W: Bu durumda, tüm değişkenler eşit olarak ağırlıklandırılmalıdır ve PCA size söyleyecektir. Ayrıca, lider bileşenin yalnızca puan matrisindeki genel değişkenliğin nispeten küçük bir kısmını oluşturduğunu söyleyecektir.

— Hans Engler

3

Hala aynı fikirde değilim. Size puanların eşit şekilde ağırlıklandırılması gerektiğini söylemez. İki maddenin pozitif bir korelasyonu olabilir, ancak her birinin "kalite" ile zıt ilişkileri vardır. Maddeler arası korelasyonlar, söz konusu bağlamda gözlemlenmemiş önlem hakkında mutlaka bir şey söylememektedir. Eğer kalite gizli bir değişken ise ve değişkenler bu gizli yapının "yansıtıcı" olması durumunda doğru olabilir, ancak bu verilen örnekte durum böyle değil.

— Andy W,

A

$A$

m \times n

$m \times n$

σ_{1} u v^{T}

$\sigma_1 uv^T$

A

$A$

n

$n$

v_{j}

$v_j$

v_{j}

$v_j$

— Hans Engler

3

Hala aynı fikirde değilim. Birliğin aynı yönde olması bekleniyor olsa bile, bu göstergelerin kendi aralarındaki korelasyonlarına dayanarak kendi içlerinde herhangi bir ağırlık verilmesi gerektiği anlamına gelmez. Paylaşılan varyans, yalnızca göstergeler arasındaki ilişki hakkında bir şeyler söyleyebilir. Bu göstergelerden bilinen bir kalite ölçüsü tahmin ettiğimiz bir regresyon modelini düşünün. Göstergeler arasındaki madde içi korelasyonlar, beklenen eğimlerin ne olacağını size söylemez.

— Andy W,