Akran derecelendirme tasarımı - doğru sıralama / derecelendirme elde etmek için bir grafik seçme


9

Arka fon. Derecelendirme sürecinin bir parçası olarak akran derecelendirmesini kullanarak yarı otomatik derecelendirme için bazı kodlar yazıyorum. Öğrencilere bir seferde iki makale verilir ve öğrenciler hangisinin daha iyi ve ne kadar iyi olduğunu seçmek için bir kaydırıcıya sahiptir. örneğin, kaydırıcı şöyle görünebilir:

A---X-B

Akran derecelendirme sonuçlarına göre, makaleler sıralanır ve öğretmen daha sonra en yüksek% X ve en düşük% X derecelerini derecelendirir ve tüm makaleler için puanlar buna göre otomatik olarak hesaplanır. Zaten bu sıralama / puanlama işlemini yapmak için yöntemler geliştirdim; bu bölüm iyi çalışıyor.

Benim sorum. Öğrencilere hangi makale çiftlerini vereceğimi nasıl seçmeliyim?

Simülasyonlar, doğru bir sıralama elde etmek için en az 3 kez akran notu almak için bir denemeye ihtiyacımız olduğunu gösterir. Bu nedenle, her makale akran derecelendirme için sunulan çiftlerin en az 3'ünde görünmelidir.

Bunu bir grafik problemi olarak düşünebiliriz. Denemeleri düğüm olarak düşünün. Her kenar, akran derecelendirme sürecinde sunulan bir çift deneyi temsil eder. Yukarıdaki doğruluk sonuçları, her bir düğümün (veya çoğu düğümün) derecesinin en az 3 olması gerektiğini göstermektedir. Ne tür bir grafik kullanmalıyım? Akran derecelendirme sırasında kullanılacak grafiği nasıl oluşturmalıyım?

Bir zorluk, grafikte kümeleriniz varsa, bunun akran derecelerini çarpıtmasıdır. Örneğin, çoğunlukla yüksek kaliteli makalelere karşı yüksek kaliteli makalelerin akran derecelendirilmesini istemeyiz, çünkü bu akran derecelendirmesinin sonuçlarını çarpıtır.

Ne önerirsiniz?

Bu sorunun aşağıdaki gibi bir şey kullanarak yönlendirilmemiş bir grafik ile modellenmiş olabileceğini düşünüyorum:

  • Düğümü en az derecede alarak başlayın ve bir sonrakiyle bağlayın
  • Ortalama dereceniz en az 3 olana kadar devam edin
  • Düğüm bağlantısını en üst düzeye çıkarın
  • Klik sayısını en aza indirin

Bu iyi bir yaklaşım mı? Değilse bunun yerine ne önerirsiniz?


Bu, genişleticiler için ilginç bir uygulama olabilir . Ödevleri bir genişleticide düzenlemeye çalıştınız mı?
13'te

kenarlar fikriniz yarı sağ görünüyor. kenarlar bir karşılaştırmanın sonucu değil, yalnızca bir karşılaştırmanın gerçekleştiğini gösterir. sadece kenarların varlığı / yokluğu çok fazla bilgiyi kodlamaz, sadece yapılan karşılaştırmaları kodlar. sorunu ele almanın doğal bir yolu, yönün örneğin tercih edilene doğru olduğu ağırlıklı / yönlendirilmiş kenarları içerir ... bir akış problemine benzer gibi görünüyor ... "kaydırıcı" diyorsunuz, çok değerli mi? veya ikili? "kaydırıcı" bir derece gibi bana çok değerli geliyordu.
vzn

Sorunuzun ne olduğunu açıklayabilir misiniz? Grafiği nasıl seçeceğinizi mi soruyorsunuz? Yoksa, her bir kenar için bir grafik ve bir dizi derecelendirme verildiğinde, tüm makaleleri nasıl sıralayacağınızı mı soruyorsunuz? Birincisi "deneysel tasarım" genel kategorisine girer (ve cevabım buna değinir); ikincisi, genel "veri analizi" kategorisi altında (ve hem cevabım hem de vzn cevabım bunun için bazı yararlı kaynaklar veriyor).
DW

Aslında sıralama ve puanlama üzerinde çalıştık, ancak aşağıdaki yaklaşımı deneyeceğiz.
ismail

benzer problemlerin bazı analizlerinde "sıralama" ve "puanlama" ifadeleri birbirinin yerine kullanılabilir. artık daha fazla gözden geçirme ve düzenlemeden, sisteminizde karşılaştırma verilerine dayalı olarak bir sıralamanın bilgisayar tabanlı tahmini olarak "sıralama" ve deneme kalitesiyle ilgili insan merkezli öznel karar olarak "puanlama" (ayrıca genellikle "derecelendirme" olarak adlandırılır). ve esas olarak karşılaştırma çiftlerini dağıtmakla ilgileniyorsunuz ...
vzn

Yanıtlar:


7

Bunun iki bölümü vardır: (a) öğrencilerin akran derecelendirme sürecinde hangi makale çiftlerini değerlendireceğini belirlemek için bir grafik ( deneysel tasarım ) seçmek ve (b) öğrencinin akran notlarına dayalı olarak tüm makaleleri sıralamak, hangi öğretmenin sıralaması gerektiğini belirler. Her biri için bazı yöntemler önereceğim.

Bir grafik seçme

Sorun bildirimi. İlk adım bir grafik oluşturmaktır. Başka bir deyişle, akran derecelendirme egzersizi sırasında öğrencilere hangi makale çiftlerinin gösterileceğini seçmeniz gerekir.

Önerilen çözüm. Bu görev için, tüm 3-düzenli (basit) grafik kümesinden rastgele rastgele seçilen rasgele bir grafiği oluşturmanızı öneririm .G

Gerekçe ve ayrıntılar. Rastgele bir düzenli grafiğin iyi bir genişletici olduğu bilinmektedir . Aslında, düzenli grafikler asimptotik olarak optimal genişleme faktörüne sahiptir. Ayrıca, grafik rastgele olduğu için, bu durum derecelendirmeyi eğme riskini ortadan kaldırmalıdır. Rastgele rastgele bir grafik seçerek, yaklaşımınızın tüm öğrenciler için eşit derecede adil olmasını sağlarsınız. Düzgün rasgele 3 düzenli bir grafiğin amaçlarınız için en uygun olacağını düşünüyorum.d

Bu şu soruyu gündeme getirir: köşelerde rastgele muntazam bir şekilde 3 düzenli (basit) bir grafik nasıl seçeriz?n

Neyse ki, bunu yapmak için bilinen algoritmalar var. Temel olarak, aşağıdakileri yaparsınız:

  1. puan oluşturun . Bunu köşenin her birinin 3 kopyası olarak düşünebilirsiniz . Bu nokta üzerinde rasgele düzgün, rastgele mükemmel bir eşleşme oluşturun . (Diğer bir deyişle, tüm noktaları eşleştirilene kadar aşağıdaki prosedürü tekrarlayın : eşleştirilmemiş herhangi bir noktayı seçin ve eşleştirilmemiş noktalar kümesinden rastgele ve eşit olarak seçilen başka bir nokta ile eşleştirin.)3nn3n3n

  2. Eşleşmeyle eşleşen her iki nokta için, karşılık gelen köşeler arasına (bunların bir kopyası oldukları) bir kenar çizin. Bu size köşe noktasında bir grafik verir .n

  3. Daha sonra, sonuçta ortaya çıkan grafiğin basit olup olmadığını test edin (yani, kendiliğinden döngüler ve tekrarlanan kenarlar yok). Basit değilse grafiği atın ve 1. adıma geri dönün. Basitse, işlem tamamdır; bu grafiği çıktı.

Bu prosedürün, 3-düzenli (basit) grafik seti üzerinde tekdüze bir dağılım oluşturduğu bilinmektedir. Ayrıca, 3. adımda sonuçta ortaya çıkan grafiği kabul etme olasılığınızın sürekli olduğu bilinmektedir, bu nedenle algoritma ortalama olarak denemeleri yapar - bu oldukça verimlidir (örneğin, polinom çalışma süresi).O(1)

Bu yaklaşımın Bollobas, Bender ve Canfield'a yatırıldığını gördüm. Yaklaşım ayrıca Wikipedia'da kısaca özetlenmiştir . Bu blog gönderisinde bir tartışma da bulabilirsiniz .

Teknik olarak konuşursak, bu sayısının eşit olmasını gerektirir (aksi takdirde köşelerinde 3-düzenli grafik yoktur ). Ancak bununla başa çıkmak kolaydır. Örneğin, tuhafsa, rastgele bir deneme seçebilir, kenara atabilir, kalan denemelerde rastgele 3-düzenli bir grafik oluşturabilir, sonra set-of-side denemesinden 3 rasgele seçilen diğer denemeye 3 kenar daha ekleyebilirsiniz. (Bu, aslında 4 kez derecelendirilen 3 makale olacağı, ancak bunun herhangi bir zarar vermemesi gerektiği anlamına gelir.)nnn

Tüm makaleleri sıralama

Sorun bildirimi. Tamam, şimdi bir grafiğiniz var ve bu makale çiftlerini (grafikteki kenarlarla belirtildiği gibi) akran derecelendirme egzersizi sırasında not vermeleri için öğrencilere sundunuz. Her makale karşılaştırmasının sonucuna sahipsiniz. Şimdi sizin göreviniz, öğretmenlerin hangilerinin değerlendirileceğini belirlemenize yardımcı olmak için tüm makalelerde doğrusal bir sıralama çıkarmaktır.

Çözüm. Bradley-Terry modelini kullanmanızı önermiştim . Bu problemi tam olarak çözen matematiksel bir yaklaşımdır. Bazı çiftler arasındaki maçların sonuçlarına dayanarak, bazı sporlarda oyuncu sıralamak için tasarlanmıştır. Her oyuncunun gerçek bir sayı olarak ölçülebilen (bilinmeyen) bir güce sahip olduğunu ve Alice'in Bob'u yenme olasılığının, kuvvetlerinin farkının düzgün bir işlevi ile belirlendiğini varsayar. Daha sonra, çift kazanç / kayıp kayıtları göz önüne alındığında, her oyuncunun gücünü tahmin eder.

Bu senin için mükemmel olmalı. Her makaleyi oyuncu olarak değerlendirebilirsiniz. İki deneme (akran derecelendirme sürecinde) arasındaki her karşılaştırma, aralarındaki eşleşmenin sonucudur. Bradley-Terry modeli, tüm bu verileri almanıza ve daha yüksek güçlerin daha iyi denemelere karşılık geldiği her deneme için bir güç çıkarmanıza izin verecektir . Artık bu güçlü yönleri tüm makaleleri sıralamak için kullanabilirsiniz.

Ayrıntılar ve tartışma. Aslında, Bradley-Terry modeli istediğinden daha iyi. Doğrusal bir sıralama istediniz, ancak Bradley-Terry modeli aslında her denemeye (gerçek sayı) bir puan veriyor. Bildiğiniz Bu araçlar sadece deneme olsun deneme daha güçlüdür , ancak kaba bir tahmin ne kadar güçlü olduğunu. Örneğin, hangi makalelerin sıralanacağına dair seçiminizi bilgilendirmek için bunu kullanabilirsiniz.ij

Sahip olduğunuz veriler göz önüne alındığında, tüm denemeler için derecelendirme veya sıralama çıkarmanın alternatif yolları vardır. Örneğin, Elo yöntemi başka bir yöntemdir. Farklı bir soruya verdiğim cevapta birkaç tanesini özetliyorum ; daha fazla ayrıntı için bu cevabı okuyun.

Bir diğer yorum: Bradley-Terry modeli, iki oyuncu arasındaki her karşılaştırmanın sonucunun bir kazanç veya kayıp (yani ikili bir sonuç) olduğunu varsayar. Ancak, aslında daha ayrıntılı verilere sahip olacağınız anlaşılıyor: kaydırıcınız, akran derecelendiricinin bir makaleyi diğerine göre ne kadar iyi derecelendirdiğine dair kabaca bir tahmin verecektir. En basit yaklaşım, her kaydırıcıyı ikili bir sonuçla eşlemek olacaktır. Ancak, gerçekten isterseniz, daha karmaşık bir analiz kullanarak tüm verileri kullanabilirsiniz. Bradley-Terry modeli lojistik regresyon yapmayı içerir. Sipariş edilen logit'i kullanmak için genelleştirirseniz, kaydırıcılardan elde edilen sonuçların ikili olmadığı, ancak birkaç olasılıktan biri olduğu göz önüne alındığında, her kaydırıcıdan elde ettiğiniz ekstra bilgilerden yararlanabileceğinize bahse girerim.

Öğretmenin verimli kullanımı

Öğretmenin tüm denemelerin en üst% X'ini ve en alt% X'ini manuel olarak derecelendirmesini öneriyorsunuz (akran notlandırma sonuçlarından çıkarılan sıralamayı kullanarak). Bu işe yarayabilir, ancak bunun öğretmenin sınırlı zamanının en verimli kullanımı olmadığından şüpheleniyorum. Bunun yerine, alternatif bir yaklaşım önermek istiyorum.

Öğretmen tarafından denemelerin bir alt kümesini not etmenizi öneririm, alt küme, öğretmen tarafından notlandırılmayan tüm denemeler için mümkün olan en iyi kalibrasyonu sağlamaya çalışmak için dikkatle seçilmiştir. Bunun için, olası cevapların aralığını kapsayan bir deneme örneği seçmeniz faydalı olabilir (bu yüzden her deneme için, çok uzakta olmayan öğretmenlerden oluşan bir deneme vardır). Bunun için denemeyi düşünebileceğiniz iki yaklaşımı düşünebilirim:

  • Kümeleme. Terry-Bradley modelinin ürettiği dereceleri alın. Bu, makale başına bir gerçek sayı olan gerçek sayı kümesidir . Şimdi onları kümele. Diyelim ki öğretmen sınıfı denemeleri yapmak istiyorsunuz . Bir yaklaşım , denemeleri kümeleri halinde kümelemek için -anlamına gelir kümeleme (bu tek boyutlu veri noktalarında) kullanmak ve daha sonra öğretmenin not vermesi için her kümeden rastgele bir deneme seçmek veya öğretmenin " her kümenin başı.nkkk

  • Önce en uzak nokta. Bir alternatif, birbirinden olabildiğince farklı olan bir kompozisyonu alt kümesi seçmeye çalışmaktır . "En uzak nokta" (FPF) algoritması bunun için temiz bir yaklaşımdır. Bazı mesafe fonksiyonlarınız olduğunu varsayınkd(ei,ej)İki deneme arasındaki mesafeyi izin verenei ve ej: küçük bir mesafe denemelerin benzer olduğu, daha büyük bir mesafe benzemediği anlamına gelir. Bir set verildiS denemeler d(e,S)=mineSd(e,e)arasındaki mesafe olması en yakın makalesi için . En uzaktaki ilk algoritma denemelerinin bir listesini , , aşağıdaki gibi : maksimuma çıkaran denemedir. (bütün denemeler üzerinden bu şekilde ). Bu algoritmalar, bir dizi üreten kalan denemelerin her biri, bu en az birine oldukça benzer olduğundan, bu araçların - mümkün olduğu kadar birbirlerine benzer gibidir deneme . Bu nedenle, öğretmenin notunu not alması makul olacaktıreSke1,e2,,ekei+1d(e,{e1,e2,,ei})ee{e1,e2,,ei}kkk FPF algoritması tarafından seçilen denemeler.

Bu yaklaşımlardan herhangi birinin, öğretmenlerin denemelerin en yüksek% X'ini ve en alt% X'ini notlandırmasından daha doğru puanlar sağlayabileceğinden şüpheleniyorum - çünkü en iyi ve en kötü denemeler muhtemelen ortadaki denemelerin kütlesini temsil etmiyor.

Her iki yaklaşımda da, yalnızca akran derecelendirmesine dayalı güç tahminlerini değil, aynı zamanda denemelerden türetilen diğer faktörleri de dikkate alan daha karmaşık bir mesafe işlevi kullanabilirsiniz. Mümkün olan en basit uzaklık fonksiyonu dikkate Terry Bradley modelinde, diğer bir deyişle, sadece bir sonuç alacağını burada gücüdür kompozisyon akran tesviye sonuçlarına dayalı Terry-Bradley modeli esas alınarak belirlenir. Ancak, daha karmaşık bir şey yapabilirsiniz. Örneğin, ve makalesi arasındaki normalleştirilmiş Levenshtein düzenleme mesafesinid(e1,e2)=(s(e1)s(e2))2s(e)ee1e2(bunları metin dizeleri olarak ele alma, düzenleme mesafesini hesaplama ve ikisinden daha büyük olanın uzunluğuna bölme) ve bunu uzaklık işlevinde başka bir faktör olarak kullanma. Denemelerdeki kelimeler üzerinde bir kelime torbası modeli kullanarak özellik vektörlerini hesaplayabilir ve bu işlev vektörleri arasındaki L2 mesafesini (tf-idf kullanılarak normalleştirilen özelliklerle) uzaklık işlevinde başka bir faktör olarak kullanabilirsiniz. Kuvvetler arasındaki farkın (Terry-Bradley tahminlerine dayalı olarak), normalleştirilmiş düzenleme mesafesinin ve faydalı görünen başka bir şeyin ağırlıklı ortalaması olan bir mesafe işlevi kullanabilirsiniz. Böyle bir daha sofistike bir mesafe fonksiyonu kudreti yardım kümeleme algoritması iyi olduğunu seçmenize yardımcı daha iyi bir iş yapmak öğretmen notu olması denemeler.k


orijinal sorun ifadesine göre takip edilmesi zor. karşılaştırmaları eşit olarak dağıtma sorununu çözüyor musunuz?
vzn

2
@vzn, cevabımı açıklığa kavuşturmak için düzenledim. Soru, grafiğin nasıl seçileceğini, yani öğrencilerin akran notlandırması sırasında öğrencilerden karşılaştırmasını isteyecek denemelerle ilgili sorular soruyor gibi görünüyor. Cevabımın ilk yarısı bu soruya bir çözüm sunuyor. Cevabımın ikinci kısmı, öğretmenin hangi makaleleri not edeceğini seçmesine yardımcı olmak için akran notlandırma sonuçlarının tüm makaleleri sıralamak için nasıl kullanılacağını açıklar.
DW

0

girdilerin ve çıktıların tam olarak tam olarak açıklanmamasına ve ne hesaplanacağına dayanan birkaç fikir (belki de sorunuzu bu düşünceyle gözden geçirebilirsiniz).

görünüşe göre bu temelde Facebook'un kuruluşundan kaynaklanan "sıcak ya da değil" "yüz maskesi" problemidir ("sosyal ağ" filminde gösterildiği gibi). orijinal "oyunda", kullanıcılar iki resim vardı ve daha çekici kadın arasında seçim yaptı. sisteminizde seçim iki deneme arasındadır, bunlardan biri daha iyidir.

görünüşe göre siber-folklordan Elo satranç maçı puanlama sistemlerinde kullanılan Elo sıralama algoritmaları yakınsak bir çözümü hesaplamak için kullanılabilir (bu durumda temel olarak ifade edilen yönlendirilmiş grafikle tutarlı denemelerin puanını tahmin edin), ancak henüz dikkatli bir şekilde görmedim bunun açıklaması / yazımı.

başka bir seçenek Pagerank kullanmaktır. yönlendirilen bağlantı grafiğine göre bir sayfanın tahmini etkisini hesaplar. deneme tercihleri ​​bir web sayfasına olan bağlantılara benzer.

bu sorun aynı zamanda bilimsel makalelerin diğer makalelere atıf yaptığı ve makalelerin etkisinin tahmin edildiği atıf analizine benzemektedir. [ancak Pagerank'ın da bu alanda önde gelen bir algoritma olduğunu unutmayın.]

[1] neden facemash algoritması için Elo sıralamalarını kullanıyorsunuz? stackoverflow

[2] Elo sıralama sistemi , wikipedia

[3] Pagerank , wikipedia

[4] atıf analizi , wikipedia


Elo'nun nasıl uygulanacağının taslağı: oyun maçları deneme karşılaştırmaları gibidir. denemelerin puanları vardır ve yüksek puanlı denemeler daha fazla maç kazanmalıdır. algoritma tüm eşleşmelerle en tutarlı skorları hesaplar.
vzn

atıf fikirlerinin, tüm karşılaştırmaların tüm denemeler üzerinde bir miktar eşit olarak dağıtıldığını varsayma eğiliminde olduğunu, aksi takdirde bir deneme daha fazla karşılaştırmada bulunuyorsa, göreli olumluluğunu artırabilir. bu yüzden bu yaklaşımın bir kısmı da atıfta bulunduğunuz karşılaştırmaları dengelemektir ve maçları tüm oyunculara dağıtmaya çalışma problemine benzer ...
vzn
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.