Birçok farklı kaynaktan derlenmiş büyük bir şehir veritabanına sahibim. Şehir adına göre çiftleri kolayca tespit etmenin bir yolunu bulmaya çalışıyorum. Naif cevap levenshtein mesafesini kullanmak olacaktır. . Ancak, şehirler ile sorun genellikle onlar ÖrneğinÖnekler/ekler için Levenshtein mesafesi için alternatif
Bulunduğunuz ülke ortak olan önek ve sonek olması: Bu neredeyse kesin farklı şehirler Boulleville Boscherville
vs
. Ancak, her ikisi de "ville" (ve her ikisi de "Bo" ile başlar) ile bittikleri için, oldukça küçük bir Levenstein mesafesine sahiptirler.* Sözcüğün sonundaki harflerden yüksek sözcüğün ortasındaki harfleri ağırlıklandırma yoluyla öneklerin ve soneklerin etkisini en aza indirmek için karakterin konumunu dikkate alan bir dize mesafe algoritması arıyorum. *
Muhtemelen kendim bir şeyler yazabilirim ama hiç kimsenin henüz uygun bir algoritma yayınlamadığına inanmak zor.
Neredeyse bir http://stackoverflow.com/questions/10425238/modifying-levenshtein-distance-for-positional-bias kopyası olarak kapatırdım, ancak çalışmanın zor bir yanıtı var ... – Wrikken