Kesin bilgiler: Kimse bir TwitterAnalyzer veya TwitterTokenizer Lucene için bilen var mı?Lucene'de Twitter İletisi Tokenizing Twitter Mesajlar
Daha detaylı versiyonu:
Ben dizine Lucene olarak tweets bir numara istiyorum ve @user veya #hashtag bozulmamış gibi terimleri tutun. StandardTokenizer, noktalama işaretini (çünkü alan adlarını, e-posta adreslerini tutmak veya kısaltmaları tanımak gibi başka yararlı şeyler yapar) çalışmaz çünkü çalışmaz. StandardTokenizer'ın yaptığı her şeyi yapan ancak @user ve #hashtag gibi terimlere dokunmayan bir analiz cihazına nasıl sahip olabilirim?
Benim şu anki çözüm analizörü içine besleyen ve diğer alfanümerik dizeleri tarafından karakterleri değiştirmeden önce tweet metni preprocess etmektir. Örneğin, bu yöntem meşru e-posta adreslerini kırar ancak bununla yaşayabilirim. Bu yaklaşım mantıklı mı?
Şimdiden teşekkürler!
Amaç
Son çözümün neye benziyor? – Karussell
Eğer solr için bir çözüme ihtiyacınız varsa bu yardımcı olabilir: https://issues.apache.org/jira/browse/SOLR-2059 ve "# => ALPHA" "@ => ALPHA" gibi bir şey – Karussell