Baskı öncesi karakterleri çıkarmak için preg_replace tüm yabancı karakterleri de siliyor gibi görünüyor

Değerleri veritabanına eklemeden önce yazdırılmamış denetim karakterlerini kullanıcı girdisinden çıkarmak için şu regex kullanıyorum.Baskı öncesi karakterleri çıkarmak için preg_replace tüm yabancı karakterleri de siliyor gibi görünüyor

preg_replace('/[\x00-\x1F\x80-\xFF]/', '', $value)

Bunu utf-8 dizelerinde kullanmakta bir sorun var mı? Tüm ascii olmayan karakterleri tamamen ortadan kaldırıyor gibi görünüyor.

kaynak

2010-07-20 Greg

Sorunun bir kısmı, hedefi bir UTF-8 dizesi olarak ele almadığınız; Bunun için /u değiştiricisine ihtiyacınız var. Ayrıca, UTF-8'de, ASCII olmayan herhangi bir karakter, tümü \x80..\xFF aralığındaki iki veya daha fazla bayt tarafından temsil edilir. Bu deneyin:

preg_replace('/\p{Cc}+/u', '', $value)

\p{Cc} kontrol karakterler için Unicode özelliktir ve u nedenleri hem düzenli ifade ve hedef dize UTF-8 olarak tedavi edilecek.

kaynak

2010-07-20 23:26:07

Geçerli bir karakter, (örneğin, ąęćśńżź gibi) Polonyalı diactric karakterleri gibi ASCII aralığının dışında kalacak mı? Geçersiz UTF-8 sekanslarını kesecek düzenli bir ifadeyi arıyorum (bu yüzden MySQL böyle bir dizeyi veritabanına eklerken şikayet etmeyecektir), ancak her şeyi el değmemiş halde bırakın. – pako

Bunun için '/ \ P {Any}/u'' kullanmak istediğinizi düşünüyorum -' Any 'kendini açıklayıcı olmalı ve '\ P {}' (büyük harf)' \ p {} '. Ama daha önce geçersiz bayt dizilerinin oraya nasıl girdiğiyle daha çok ilgilenirim. –

kullanabilirsiniz Unicode character properties

preg_replace('/[^\p{L}\s]/u','',$value);

hiçbir fullproof ama bazı güzel çevirileri yolla sen, ASCII için Unicode dönmek isterseniz

(eğer içinden izin vermek istiyorum diğer sınıfları eklemek musunuz):

echo iconv('utf-8','ascii//translit','éñó'); //prints 'eno'

kaynak

2010-07-20 23:29:36 Wrikken

NOT: Yukarıdaki URL bozuk ve SO cevabı düzenlememe izin vermiyor; Doğru URL: http://php.net/manual/en/regexp.reference.unicode.php – DOOManiac

@DOOManiac: Tamam, işaretlediğiniz için teşekkürler, URL'yi düzeltin. – Wrikken

Baskı öncesi karakterleri çıkarmak için preg_replace tüm yabancı karakterleri de siliyor gibi görünüyor

cevap

İlgili konular