2012-01-24 21 views
5

aşağıdaki regex kullanarak İbranice metnin bir bölümünü (kökeni bir haber sitesindeki yorumlardır) yakalamaya çalışıyorum:Java'da regex ile İbranice nasıl çekilir?

[\u0590-\u05FF \\p{Graph} \\s]+ 

Çoğu yorumlar için çalışır, ancak bazı yorumlar eksik.

Bunu hata ayıklamaya çalıştım ve desenle eşleşmeyen bir İbranice mektubu var gibi görünüyor.

Ben

Fikirler ... bu mektubu ayıklamak ve baskı o tamsayı değeri doğru gibi görünüyor oluyor ama yine de regex yakalamak vermediğinde?

+0

"Pattern.UNICODE_CASE" özelliğini "Pattern.compile" yönteminizin içinde kullanıyor musunuz? –

+0

Hayır, yapmalı mıyım? – lribinik

+0

Bunu deneyin: 'Desen p = Model.compile (" YOUR_REGEX ", Pattern.UNICODE_CASE);' –

cevap

0

Daha sematically doğru Ayrıca noktalama, rakam maç (en azından dünyaca yaygın olanları) ve alanların farklı türde gerek yerine \u0590-\u05FF

ait \p{InHebrew} kullanmak olacaktır. \p{Graph}'un ne olduğunu bilmiyorum ve İbranice özel noktalama işaretleri var, ama bazı kısımları kaçırdınız.