Lucene'de Twitter İletisi Tokenizing Twitter Mesajlar

Kesin bilgiler: Kimse bir TwitterAnalyzer veya TwitterTokenizer Lucene için bilen var mı?Lucene'de Twitter İletisi Tokenizing Twitter Mesajlar

Daha detaylı versiyonu:

Ben dizine Lucene olarak tweets bir numara istiyorum ve @user veya #hashtag bozulmamış gibi terimleri tutun. StandardTokenizer, noktalama işaretini (çünkü alan adlarını, e-posta adreslerini tutmak veya kısaltmaları tanımak gibi başka yararlı şeyler yapar) çalışmaz çünkü çalışmaz. StandardTokenizer'ın yaptığı her şeyi yapan ancak @user ve #hashtag gibi terimlere dokunmayan bir analiz cihazına nasıl sahip olabilirim?

Benim şu anki çözüm analizörü içine besleyen ve diğer alfanümerik dizeleri tarafından karakterleri değiştirmeden önce tweet metni preprocess etmektir. Örneğin, bu yöntem meşru e-posta adreslerini kırar ancak bununla yaşayabilirim. Bu yaklaşım mantıklı mı?

Şimdiden teşekkürler!

Amaç

kaynak

2010-03-31 Ruggiero Spearman

Son çözümün neye benziyor? – Karussell

Eğer solr için bir çözüme ihtiyacınız varsa bu yardımcı olabilir: https://issues.apache.org/jira/browse/SOLR-2059 ve "# => ALPHA" "@ => ALPHA" gibi bir şey – Karussell

StandardTokenizer ve StandardAnalyzer temelde bir küçük harf filtre ile (sözcük uçlarında 'ler gibi standart jeton karakteri her türlü kaldırır) bir StandardFilter, üzerinden belirteçleri (kelimeleri küçük harfe geçmesi) ve son olarak bir StopFilter tarafından. Bu sonuncusu, "as", "in", "for", vb. Gibi önemsiz sözcükleri kaldırır.

Başlamak için kolayca yapabileceğiniz şey, StandardAnalyzer ile aynı performansı gerçekleştiren ancak WhitespaceTokenizer olarak kullanan kendi analiz cihazınızı uygulamaktır. Giriş akışını işleyen ilk öğe. twitter özgü simgeleştiricisine üzerinde https://github.com/brendano/ark-tweet-nlp/blob/master/src/cmu/arktweetnlp/Twokenize.java

kaynak

2010-04-01 06:19:55 Thomas

Teşekkürler. StandardTokenizer yerine WhitespaceTokenizer kullanarak kendi analiz cihazımı uygulamayı denedim. Ancak bu, ana bilgisayar adlarını, e-posta adreslerini ve tanınmayan ve hatalı olarak belirtilmiş bazı diğer öğeleri bırakır. Özel TwitterTokenizer'ımla (ve başka bir şey yapmayan @s ve #s'nin başka bir şeyi yapmaz) bir akışı işlemek istiyorum. Daha sonra sonuçta elde edilen akışı bir StandardTokenizer'e aktarıp oradan devam ediyorum. Ancak, bir Analizörün anlayabildiğim kadarıyla zincirin başında sadece bir Tokenizer olabilir. –

Başka bir yaklaşım PerFieldAnalyzerWrapper'ı kullanmak ve karma etiketler ve kullanıcı referanslarını açık bir şekilde aramak ve bunları belgenin ayrı bir alanına koymak (örneğin, 'etiketler' ve 'yanıtlar') için içeriğe ikinci bir geçiş yapmak olabilir. Bu alana ait analizörler, sırasıyla #tag ve @ useruser olayları için yalnızca jetonları döndürür. – Thomas

Evet, bu mantıklı. Teşekkürler! –

üzerinde bir göz atabilirsiniz analizörlerin bir iç yapısı daha detaylı bilgi için

burada Heyecan özgü tokenizer var Sandığın-cik-nLP API http://preciselyconcise.com/apis_and_installations/tweet_pos_tagger.php Bu API bir tweet mevcut ifadeler, hashtag'leri, Ünlemleri vb belirleme yeteneğine sahiptir bulunabilir

kaynak

2013-11-23 02:25:45 dranxo

bir öğretici değiştirilmiş bir sürümü şudur: here

kaynak

2014-03-01 16:21:09 girip11

Heyecan API Bios vs ile tüm Tweets dönmek için söylenebilecek "varlıklar" (hashtag, userIds, urls vb.) zaten içerikten koleksiyonlara ayrıştırıldı.

https://dev.twitter.com/docs/entities

Yani sadece Twitter millet zaten sizin için yapmış şey yeniden yapmak için bir yol aramıyorlar?

kaynak

2014-03-12 08:35:55 ShakeyDave