ÖSO dilbilgileri arasındaki 'benzerliği' ölçme yöntemi?


10

Belirli bir metin dizesi ve tüm alt dizeleri kabul eden bir döngüsel sonlu durum otomatı üreten bir desen eşleme algoritması ile çalışıyorum. FSA algoritması bir müzik akışının sembolik bir temsili üzerinde yürütülmektedir (örneğin, MIDI verileri). Müzik akışı, her şarkıyı etiketlenmemiş 'bölümlere' bölmek için önceden işlenmiştir. Her şarkıdaki her bölüm için bir FSA oluşturulur: her biri bölüme ayrılmış şarkım varsa , ayrı FSA'm olur.nn yyny

Her bir segmentin ÖSO'sunu şirketimdeki diğer ÖSO'larla karşılaştırmak istiyorum. Nihai amaç, benzerlik alanı içinde kümeleme yapmak ve inşaat metriklerinin ne kadar benzer olduğuna göre segmentlerin “sınıflarını” bulmak olacaktır. Bu nedenle, her bir FSA'nın tanımladığı dilbilgileri (segmentteki müzik içeriğinin kabaca belirli bileşenlerine karşılık gelir) özellikle ilgi çekicidir. Böyle bir şeyi karşılaştırmak için iyi olabilecek teknikler var mı? KL-diverjans akla geliyor (örneğin, belirli bir FSA ile ilişkili dizeler arasındaki dağılımı karşılaştırmak), ancak daha iyi / daha verimli teknikler olabilir mi?

Ayrıca, bu sorunun (1) önemsiz derecede kolay veya (2) daha derin bir yanlış anlaşılmanın göstergesi veya (3) başka bir yerde cevaplanması durumunda özür dileriz. Ben gerçek bir çıkarım, millet!


3
"Benzer" derken ne demek istediğinizi bize söylemeniz gerekir. Metriği seçmelisiniz; her amaca uygun tek bir metrik yoktur. Daha fazla bilgi olmadan, hangi metriğin kullanılacağını size söyleyemeyiz. Benzerliği neden ölçmek istediğinizi, benzerlik metriğinin sonuçlarıyla ne yapacağınızı ve hangi araştırmayı yaptığınızı açıklamak için soruyu düzenlemenizi öneririz. Bu dizelerden türetilen ÖSO'ların benzerliklerini ölçmek yerine, temel dizeler arasındaki benzerlik ölçütlerine bakarak başlayabilirsiniz. Düzenleme mesafesi akla geliyor.
DW

Orada birçok dize ölçümlerini ; sizin için hangisinin işe yaradığına bağlıdır. (Not: bu makalede listelenen bazı "metrikler" dizesi aslında matematiksel anlamda metrik değildir.)
Raphael

Dize metrikleri iyidir, ancak peşindeyim değil. Belirli dizeleri birbirleriyle karşılaştırmak yerine, bu dizeleri üretebilecek kurallar sistemini (resmi gramerler / ÖSO'lar) karşılaştırmak istiyorum. Belirli bir dize üretebilen sonsuz sayıda dilbilgisi olduğunu kabul ediyorum, bu yüzden aramamı belirli bir kurallar dizisi kullanılarak oluşturulmuş bir dilbilgisi (FSA) ile kısıtlıyorum. Belirli bir dize metriğine göre iki ayrı dizenin resmi olarak benzer olduğu durumlar olabileceğini hayal ediyorum, ancak bunları üretmek için gerekli gramerler oldukça farklı
çevirin

Sorunun ifadesinden, her FSA bir dizeyi ve tüm alt dizelerini kabul etmektedir. Temel olarak, bu ÖSO, kabul ettiği en uzun dize ile karakterizedir. Bütün yapısı ondan türemiştir. Bu nedenle, FSA'yı karşılaştırmanın, oluşturuldukları dizeleri doğrudan karşılaştırmak yerine çok az anlamı vardır. ÖSO inşaat tekniğiniz, önemli olduğunu düşündüğünüz bazı özellikleri vurgulayabilir. O zaman neyin önemli olduğunu anlamak için neye benzeyebileceklerini bilmemiz gerekir. Geri dönüyor: benzer olan, ne metrik. Olduğu gibi, bu soru bir anlam ifade etmiyor.
babou

Yanıtlar:


1

başka bir açıdan daha fazla şansınız olabilir ve müzik parçası benzerliğine yönelik araştırmalara bakarken, bunu inceleyen araştırmacılar vardır ve yaklaşımınız işe yarayabilirken, başka yaklaşımlar da vardır. Büyük veritabanları olduğu böyle sözleri, tür vs. gibi birçok unsurlar / kriterlere bakmak Müzik genom projesi .

bazen çok çeşitli algoritmalar olduğunda bir anket yardımcı olabilir. grafik eşleme üzerine iki anket.


0

ÖSO'lar yönlendirilmiş grafikler olduğu için sorunuz "yönlendirilmiş grafikler arasındaki benzerliği ölçmek için algoritma" olarak genelleştirilebilir. "Grafik benzerlik algoritması" için yapılan bir Google araması, sayfa ve isabet sayfalarını verir, belki bunlardan biri sizin amaçlarınız için uygun olabilir?

FSA'lar ve genel digraflar arasındaki fark, FSA'lardaki kenar etiketleri veya geçiş sembolleri olduktan sonra, bunu dikkate almak için bu algoritmaları değiştirmeniz gerekir.


Bunun gibi bir yöntem bazı önemli özellikleri kaçırır. Örneğin, muhtemelen aynı dilin farklı temsillerinin tam benzerliğe sahip olmasını istersiniz, ancak grafikleri karşılaştırmak, farklı olanla aynı dil için iki otomata rapor verebilir.
jmite
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.