Bu sorunun buraya ait olup olmadığından emin değilim ve özür dilerim. Ne yapmak için ben muhtemelen belirli bir dize dizeleri bir çanta içinde "ait" olup olmadığını belirleyebilir programatik bir yol geliştirmektir. Örneğin, 10.000 ABD şehir adından oluşan bir çantam varsa ve sonra "Philadelphia" ibarem varsa, 'Philadelphia'nın zaten bildiğim ABD şehir adlarını temel alan bir ABD şehir adı olması konusunda niceliksel bir ölçüm istiyorum. Bu bağlamda gerçek şehir isimlerini sahte şehir isimlerinden ayıramayacağımı bilsem de, en azından "123.75" ve "Hızlı kızıl tilki tembel kahverengi köpeklerin üzerinden atladı" gibi dizeler olmasını beklerdim bazı eşik.
Başlamak için Levenshtein Mesafesine baktım ve bunun en azından çözmeye çalıştığım soruna benzer şekilde sorunlara nasıl uygulandığına biraz baktım. Bulduğum ilginç bir uygulama intihal tespiti, Levenshtein mesafesinin değiştirilmiş bir Smith-Waterman algoritması ile nasıl kullanıldığını açıklayan bir makaleyle belirli bir temel kağıdın plagarize edilmiş bir versiyonuna göre kağıtları puanlamaktı. Sorum şu ki, birisi bana yardımcı olabilecek diğer yerleşik algoritmalar veya metodolojilerle beni doğru yönde gösterebilir mi? Bunun geçmişte birisinin çözmeye çalıştığı bir sorun olabileceğini hissediyorum ama şimdiye kadar Google-fu'm başarısız oldu.