2011-08-16 14 views
13

İngilizce yazılmış bir cümle veya kelimeyi başka bir dilde yazarak (fonetik olarak) çeviren bir PHP betiğini (hoşgeldin dil-agnostik önerileri) yazmayı düşünüyorum. İngilizce'yi phoenetically (yani kulaktan) yazılı olarak incelediğimden beri: Aynı kelimenin varyant yazımlarıyla uğraşmak zorundayım.PHP'de akıllı transliterasyon

Hiçbir standart (örneğin, Çince, vb, Basitleştirilmiş Wade var) romanization için var olduğu varsayılır

Herkes ben başlayabileceğini nereye üzerinde herhangi bir tavsiye var mı?

DÜZENLEME: Bunu tamamen eğitim amaçlı yapıyorum ve başlangıçta varyant yazımlar arasındaki bağlantıyı anlayabilmem için izlenim uyandırıyordum (IM mesajlarının bir cümlesinde bulunabilir, Facebook mesajları dilin romalı biçimi), bir çeşit makine öğrenim aracına ihtiyacınız olacaktı. Ancak, doğru yolda olup olmadığımı bilmek isterim ve bu çalışmayı yapmak için ne zaman bakmam gerektiğini bulmak için biraz yardım isterim (örneğin: hangi makine öğrenim aracına bakmalıyım?) .

+0

- gibi (normalde kendi alfabesinde yazılmış) yabancı sözcüğün varyant yazımlar " eheree "versus" ehery "veya" ei "vs" ey ". Anladığım kadarıyla değil: Verilen bir corpus üzerinde biraz istatistiksel analiz gerektiren bir çözüm olmasını umuyordum (örneğin, IM mesajlarının veya Roman dilinin romanlaşmış formunda yazılan Facebook güncellemelerinin). – arkate

cevap

2

En azından Japonca bildiğim için çok sayıda harf kombinasyonunuz var. devam ve 'tsu' olmalıdır zaman, 'su' eşleşmeyen emin olarak Tabii bu

array(
    'oo' => 'おう', 
    'oh' => 'おう', 
    'ou' => 'おう' 
) 

gibi eşleşen bir dizi oluşturmak gibi

Yani, bir şey yapabiliriz.

Bu, elbette bir başlangıç ​​noktası olabilir.

Makine öğrenimi muhtemelen Çin ile en pratik ... ama burada hiragana kaba bir başlangıçtır: Çok etli almadan https://gist.github.com/1154969

+0

Bu hatlar boyunca bir şey arıyordum.Burada eksik olan tek şey, muhtemelen bu ilişkilendirmeleri (belki de makine öğrenme teknikleriyle) üretmenin bir yoludur. – arkate

3

Derick Rethans tarafından Transliteration PHP Extension deneyin:

Bu uzantı latin karakter (örneğin Çince, Kiril, Yunanca vb) olmayan Latin harflerle metin çevirisini sağlar. Transliterasyonun yanı sıra, uzantı ayrıca, üst ve küçük harfli latin, kiril ve yunanca filtreler içerir ve Norveççe "æ" gibi "a" harflerine dönüştürmek ve noktalama ve boşlukları normalleştirme gibi özel transliterasyon formları gerçekleştirir.

Daha önce aradığınız şeye zaten başlamış gibi görünüyor! (ingilizce -> latin dili ile uğraşmak istemediğiniz sürece, fakat en azından başka dillerdeki betikler ile ilgilenirsiniz.))

+0

İyi bir araç ve bana gösterdiğiniz için teşekkürler. Bununla birlikte, tek başıma nasıl inşa ettiğimi (tamamen eğitim amaçlı) bulmakla daha çok ilgileniyordum. Eğer bu soruya açık olmasaydı özür dilerim :( – arkate

+2

Bu kütüphaneyi almayı ve kodlarına bakmayı öneririm En iyi öğrenme şekli (benim için): işe yarayan bir şeyi al, onu çözme, nasıl düzelteceğimi bul. Tekrar et –

İlgili konular