2016-03-30 21 views
0

Verilen çok sayıda metin örneğinin benzerliğini belirlemek için bir yol var mı, belki de yüzde cinsinden veya verilen metinlerin birbirleriyle ne kadar ortak olduğunu gösterecek şekilde.Birden çok metin bloğu arasındaki benzerliği belirleme

*abc*abc* or maybe 66% 

şu anda daha belirli olamaz:

T1 = abcabcabc 
T2 = xyzabcxyzabcxyz 
T3 = abcxyzabc 

Benzerlik şey gibi olurdu.

Kod sağlanırsa, python'u tercih ederim ancak herhangi bir betik dili veya benzeri iyi, sözde kod veya sorun çözme sitelerine atıfta bulunuyor.

cevap

1

Metin arasındaki mesafeyi ölçmek için çeşitli yöntemler vardır.

Daha fazla ayrıntı için String metric'u kontrol edin.

pypi numaralı telefondan Levenshtein distance numaralı bir cihaz var, bunu kendim denemedim. Levenshtein mesafesi başka bir dize dönüştürmek için asgari adımı hesaplamak ederken, iki dize benzerlik yüzde almak için step/len(string) kullanabilir wiki

başka kimse yok

.

İlgili konular