Nasıl filtrelemek için çince (SADECE Çince)

Bazı noktalama ve saf Çinli metne tam genişlikli semboller dahil bazı metin dönüştürmek istiyor.Nasıl filtrelemek için çince (SADECE Çince)

maybe_re = re.compile("xxxxxxxxxxxxxxxxx") #TODO 
print "".join(maybe_re.findall("你好,这只是一些中文文本.．，．，全角")) 

# I want out 
你好这只是一些中文文本全角

kaynak

2011-08-02 Dreampuf

diğer mektuplarından Çince karakterler ayırmak için herhangi iyi bir yol bilmiyorum, ama diğer karakterler mektuplar ayırt edebilir. Düzenli ifadeleri kullanarak, r"\w" (Python 2 üzerindeyseniz re.UNICODE bayrağıyla derlenmiş) kullanabilirsiniz. Bu sayılar yanı sıra harfler, ancak noktalama işaretleri içermez.

unicodedata.category(c) olan karakter c ne tür söyleyecektir. Noktalama işareti "Po" iken Çince harflerin "Lo" (harfsiz harf) vardır.

kaynak

2011-08-02 11:40:14

tks, ancak python düzenli destek unicode kategorisi var mı? – Dreampuf

@Dreampuf: düzenli ifadeler? Bildiğim kadarıyla değil. Ama '' '.join kullanabilirsiniz (c için unicodedata.category (c) .startswith (' L ')' s) ' –

teşekkür ederim! Haklısın! – Dreampuf

Zhon kütüphane Çinli noktalama işaretlerinden bir listesini sağlar: https://pypi.python.org/pypi/zhon

str = re.sub('[%s]' % zhon.unicode.PUNCTUATION, "", "你好,这只是一些中文文本.．，．，全角")

Bu istediğiniz neredeyse şeyi öğrenirsin. Tam olarak değil, sağladığınız cümle, "．" gibi standart olmayan noktalama işaretleri içerir. Her neyse, Zhon'un benzer bir konuda başkalarına yararlı olabileceğini düşünüyorum.

kaynak

2013-05-29 15:04:10

Serin kütüphaneniz için teşekkürler. – Dreampuf

Nasıl filtrelemek için çince (SADECE Çince)

cevap

İlgili konular