İki altyazı dosyam var. OnlarınMetin benzerliği algoritması
Bazen sadece bir dosyada "rüzgâr ... müzik çalıyor esiyor" gibi yorumların olduğunu benzer metin aynı metni temsil veya olmadığını söyleyen bir işlev gerekir. Ancak içeriğin% 80'i aynı olacak. Fonksiyon TRUE değerini döndürmelidir (dosyalar aynı metni temsil eder). 1 yerine l gibi Ve bazen orada hatalı yazımlar - burada (bir L): O bagaj 1eft. Elbette, işlev TRUE değerini döndürmesi gerektiği anlamına gelir.
Yorumlarım:
metinlerinin benzerliği yüzdesini dönmelidir fonksiyonu - burada olarak düşünülebilir edeceğimi -
"tüm insanlar mutlu değildi" "tüm insanlar mutlu" ve KABUL yanlış yazım, bu yüzden aynı metin olarak kabul edilir. Kesin olmak gerekirse, işlev döndürme yüzdesi daha düşük olacak, ancak ifadelerin benzer olduğunu söyleyecek kadar yüksek olacaktır.
Levenshtein'i bir dosyaya mı yoksa sadece bir arama dizgisine mi uygulamak istediğinizi düşünün. Algoritmanın bir bütün olarak dosyaya uygulanması gerekir. Yine de çok uzun bir ip olacak.
metinlerinin benzerliği yüzdesini dönmelidir fonksiyonu ve TRUE veya FALSE için eşiğe karar verirsiniz. – YOU
Benzerlik ölçütleriniz hakkında çok dikkatli olmanız gerekecek ve bence bu, yapmaya çalıştığınız şeyin en zor kısmı olabilir.Mesela "bütün insanlar mutluydu" ve "tüm insanlar mutlu değillerdi" metinsel olarak benzer ama anlam bakımından tamamen tersi. Benzer ve farklı metinlerin bazı örnekleri yardımcı olabilir. – glenatron
Soundex'e (http://en.wikipedia.org/wiki/Soundex) göz atın ve aradığınız bir şey olup olmadığına bakın. –