En çok kullanılan terimleri bir dizinde, yüzleri kullanarak bulabileceğinizi biliyorum. Aşağıdaki girişlere Örneğin Elasticsearch'te en çok kullanılan deyimler nasıl bulunur?
:B:3
AA:3
A:2
BB:2
CC:1
C:1
Ama bu mümkün izlediklerinizi listelemektir merak ediyorum:
"A B C"
"AA BB CC"
"A AA B BB"
"AA B"
vadeli faset bu döndürür
AA B:2
A B:1
BB CC:1
....etc...
mi ElasticSearch'te böyle bir özellik var mı?
Belki de 'shingle' analizcisini kullanan alanda özel bir analiz cihazı tanımlamayı deneyin. Bu, kelimeleri (istediğiniz gibi) birleştirerek belirteçleri oluşturacaktır. Daha sonra, fasetin bu birleşik belirteçlerin üzerindeki sayıları döndürüp döndürmeyeceğini deneyebilirsiniz. Bir [shingle belirteci filtre üzerindeki es belgelerine bakın] (http://www.elasticsearch.org/guide/reference/index-modules/analysis/shingle-tokenfilter/) – ramseykhalaf
Teşekkürler, bu işe yarayabilir. Yönlendirmeler jetonları döndürür, bu yüzden büyük olasılıkla bu phrase_tokens'i de döndürür. Ancak, bu varolan dizinler için geçerli değildir ve bu dosya boyutunu çok artırır, değil mi? Her gün 5 GB veri için bu özelliğe ihtiyacım var. Ve o günden sonra artık ona ihtiyacım olmayacak. Yani, her gün sonunda 5GB veriyi indekslemek, faset sonuçlarını saklamak ve sonra yeni indeks verilerini silmek için en iyi şey sanırım. (Bu bir döngüde devam edecek) Diğer seçenekler? – shyos
Yanıtın http://stackoverflow.com/questions/39380463/get-top-100-most-used-three-word-phrases-in-all-documents – AlexG