Kullanıcıların reklamlarını ücretsiz olarak yayınlayabilecekleri gizli bir web sitesi (PHP ve Mysql) var. Ancak kullanıcılar genellikle çift reklam yayınlar. Komut, tam çift içeriği yayınlamalarına izin vermez, bu nedenle bir veya iki karakteri değiştirerek bunu yaparlar.Yinelenen içerikler nasıl kaldırılır?
Yinelenen reklamı bulmanın ve kullanıcıyı uyarmanın (metnin bir kısmını değiştirmiş olsa bile) herhangi bir yolu var mı?
Sitem PHP ve Mysql'de. Arama için sphix kullanıyorum. Bunu mongodb ve apache solr'a değiştirmeyi düşünüyorum.
İçeriğin çift olup olmadığını kontrol etmek için ne kadar ilerlemek istiyorsunuz? Kaç karakter var? Kişilerin yalnızca bir haftada bir kez reklam yayınlayabileceği bir kısıtlama ile çalışabilirsiniz. –
Kullanıcılarınız sahte parametreler ekliyor mu, yani http://foo.com/image.png?fakeparam=1? Bu durumda, tüm parametreleri kapatabilir ve yalnızca parametrelenmemiş URL'yi düşünebilirsiniz. Ancak bu, insanların aynı dosyayı farklı bir adla yeniden yüklemesini engellemez ... –
@ Alexander Cogneau İçeriğin% 80 benzer olması durumunda, reklamı yinelenen olarak kabul edeceğim (olduğu gibi durma kelimeleri hariç) Orada, vb) Hayır, aynı günde birden fazla ilan gönderen kişileri kısıtlayamayız. Aynı gün içinde gönderilen kopyaları manuel olarak bulabiliriz, ancak bir haftalık yayınlarda arama yapamıyoruz –