2012-07-08 30 views
5

Muhtemelen Word'den bir metni bir web sitesi formuna veya başka bir şeye kopyalamayı deneyimlemiş olabilir ve tüm alıntılar ('), çift tırnak (") ve tire işaretleri (-) bozuktur. Tırnaklara" Akıllı Tırnaklar "denir. ya da "Typographer's Quotes", ancak bu çizgi içeren bir kategori var mı? Bu karakterler içeren bir kategori var mı?Akıllı teklifler ve her zaman kırılan bu tire gibi karakterler için bir kategori veya isim var mı?

Bu kategorinin ayırt edici özellikleri: Normal qwerty klavye ile erişilebilir ve kolayca ASCII eşdeğeri için görsel mistakable

Bu soru aynı konu ile ilgili gibi görünüyor

:.? How do I convert Word smart quotes and em dashes in a string? Ayrıca belki de "em tire" denir

+0

Unicode özelliğinin normal bir klavyeyle erişilebilen ve ASCII eşdeğeri için görsel olarak kabul edilebilir olan tüm karakterleri nasıl tanımlayacağını soruyor musunuz? Klavyeler dünya çapında farklı olduğu için, bunun öznel cevaplar üreteceğini düşünüyorum. Sanırım benimki muhtemelen üzerinde ASCII olmayan anahtarlar yok. Yoksa özellikle Unicode mülkünün "karakter gibi alıntı" nı belirleyeceğini soruyor musunuz? – DavidO

+0

Moreso devler arasında bu ppty karakterleri için bir terim var, bu filtreyi halihazırda uygulamış bir çözümü bulmak için gitmem gerekiyor. – Mikey

+1

"Normal qwerty klavye ile erişilebilir" karakterleri, hangi uygulamayı kullandığınıza bağlı olarak değişecektir. MS Word'de, çift tırnak karakterleri yazdığımda, SOL DOUBLE QUOTATION MARK (U + 201C) ve RIGHT DOUBLE QUOTATION MARK (U + 201D) değerine dönüştürülür. Web tarayıcımda tam olarak aynı şeyi yazdığımda, sadece QUOTATION MARK'lar (U + 0022). –

cevap

4

En az 1,114,111 geçerli Unicode kod noktası vardır. ABD standardı klavyem, 1 ile 127 (temel 10) arasındaki değere erişmeyi oldukça kolay hale getiriyor.

Bu aralığın ötesine geçtiğinizde, eski stil yerel ayarlarına veya daha modern UTF8 (veya diğer Unicode) kod noktalarına girmeye başlarsınız. Bu kod noktalarının çoğuna dünyanın herhangi bir yerinde bir klavyeden kolayca erişilebilir. Ancak kendi evinizin veya ofisinizin rahatlığında, klavyenizden kolayca erişilebilecek 1,1 milyonluk oldukça küçük bir alt kümeyi bulacaksınız.

(UTF8, hex) 29 tırnak stil kod noktalarını içeren bir Unicode QMark (kısa adı) olarak adlandırılan özellik veya Quotation_Mark (uzun ad) vardır: 0x0022, 0x0027, 0x00ab, 0x00bb, 0x2018, 0x2019 , 0x201a, 0x201b, 0x201c, 0x201d, 0x201e, 0x201f, 0x2039, 0x203a, 0x300c, 0x300d, 0x300e, 0x300f, 0x301d, 0x301e, 0x301f, 0xfe41, 0xfe42, 0xfe43, 0xfe44, 0xff02, 0xff07, 0xff62 ve 0xff63. İşte

onlar (fontlar hepsini destekleyen varsayarak), görünümünü var:

"'«»‘’‚‛“”„‟‹›「」『』〝〞〟﹁﹂﹃﹄"'「」

şaşırtıcı olmayan 0 ile 127

arasında 128 kod noktalarını içeren bir Unicode özelliği ASCII, bulunduğu görülmektedir

"ASCII olmayan her şeyi" belirten bir Unicode özelliği bulamıyorum, ancak bunun 0 .. 127 aralığının dışında kalması nedeniyle bunu bileceksiniz. 0x002D, 0x00ad, 0x058a, 0x1806, 0x2010, 0x2011, 0x2e17, 0x30fb, 0xfe63, 0xff0d ve 0xff65:

da on bir kod noktalarını içeren bir Hyphen Unicode özelliği yoktur. Bunları buraya yapıştırmaktan çekiniyorum, en azından ikisi terminalimden oluşmuyor. Ama burada gider:

-­֊᠆‐‑⸗・﹣-・

Gördüğünüz gibi, bazıları diğerlerinden ayırt edilemez. Perl 5.16'da Hyphen özelliğini kullandığımda, belirli Unicode özelliğinin kullanımdan kaldırıldığına dair bir uyarı alıyorum. Bu sadece Perl için mi yoksa genel olarak Unicode için mi bilmiyorum.

Ayrıca, 27 kod noktası içeren Dash özelliği de bulunmaktadır. Bence fikri anladın, ben de onları buraya yazmam. ... ve 23 kod noktalı Dash_Punctuation isimli başka bir isim. Bir çok kod noktasının birden fazla Unicode özelliği tarafından kategorize edilebileceğini unutmayın, bu nedenle Hyphen ve Dash arasında örtüşmesi ve muhtemelen Dash ve Dash_Punctuation arasında daha fazla örtüşmesi mümkündür - Bilmiyorum ve kontrol etmedim.

Bunun herhangi bir yöntemle Perl merkezli bir soru olmadığını biliyorum, ancak Perl'in Unicode özelliklerinin oldukça iyi belgelerine sahip olduğunu gördüm: perldoc perluniprops.

Sorunun kısa cevabı "Ben daha var mı?" evet, yaklaşık 1.1 milyon daha var.

Güncelleme: Bu sinir bozucu karakterlerin adlandırılmasıyla ilgili olarak .... Kod noktaları ve glifler arasında ayrım yapmak zorundasınız. Bir kod noktası, bir Unicode öğesinin net temsilidir, oysa glif, neye benzediğidir. Farklı yazı tipleri, belirli bir glifi birbirinden farklı şekilde uygulayabilir. Yani bir yazı tipinde aynı olan şey bir diğerinde biraz farklı görünebilir. Unicode kod noktalarının ve ilişkili tam adların anlamsal bir anlamı olduğu düşünülürken, glifler basit grafiksel (güvenilmez) temsillerdir.

İlgili konular