2013-03-26 14 views
5

Çince, Japonca gibi yabancı dil ayıklamak için Apache Tika mümkün mı? "?" Girdi Çince karakterler içeren bir doc dosyasıdırÇince, Japonca gibi yabancı dil ayıklamak için Apache Tika mümkün mı?

Detector detector = new DefaultDetector(); 
    Parser parser = new AutoDetectParser(detector); 
    InputStream stream = new ByteArrayInputStream(bytes); 
    OutputStream outputstream = new ByteArrayOutputStream(); 
    ContentHandler textHandler = new BodyContentHandler(outputstream); 
    Metadata metadata = new Metadata(); 
    // Set<String> langs = LanguageIdentifier.getSupportedLanguages(); 
    // metadata.set(Metadata.CONTENT_LANGUAGE, lang); 
    // metadata.set(Metadata.FORMAT, hint); 
    ParseContext context = new ParseContext(); 
    try { 
     parser.parse(stream, textHandler, metadata, context); 
     String extractedText = outputstream.toString(); 
     return extractedText; 
    } catch (IOException e) { 
     e.printStackTrace(); 
    } catch (SAXException e) { 
     e.printStackTrace(); 
    } catch (TikaException e) { 
     e.printStackTrace(); 
    } 

, her Çince karakterler olarak çıkartılacaktır:

Aşağıdaki kod var.

Çok teşekkürler!

+0

Tika gayet onları idare etmek mümkün olmalıdır. Metni çıktı/görüntülediğinizde kodlamanın doğru olduğundan emin misiniz? – Gagravarr

cevap

0

Ben yerde görülen Apache Tika Çince ve Japonca gibi yabancı dil desteklemediği yazmadım. Apache Tika kaynak dosyasını, aşağıdaki bakarken Ama dillerin hem bulamadık. Çinli Doc dosyası

https://tika.apache.org/1.4/parser_guide.html

+1

Eğer baþvurduðunuzu kodu * dil tespiti için * değildir - (İpucu! Büyük olasılıkla UTF-8 ve Çince karakterin motifi olan bir fontu kullanarak görüntülemek gerekir gibi bir şey olması gerekir) Tika'nın farklı bir parçası olan metin çıkarımı için – Gagravarr

1

Apache Tika ile test etmek beş dakika kullanıcı kılavuzunda anlatıldığı gibi yine aynı şekilde uygulanması deneyebilirsiniz Ancak

http://svn.apache.org/repos/asf/tika/branches/1.4/tika-core/src/main/resources/org/apache/tika/language/tika.language.properties

unicode çıkarabildiğinde desteklenen dosya formatlarındaki metni. Sürece dosya formatı Unicode metni (örn Çince veya Japonca karakter) saklayabilir olarak Apache Tika o

Tika da çalıştığını doğrulamak için bu birim testlerin bir dizi içerir çıkarabilir. Böyle bir test this sample chinese email kullanır.

$ java -jar tika-app-1.4.jar --text testMSG_chinese.msg | head 
Alfresco MSG format testing (MSG 格式測試) 
    From 
    Tests [email protected] (張毓倫) 
    To 
    Tests [email protected] (張毓倫) 
    Recipients 
    [email protected] 

Ya da bu Japanese document ile:

$ java -jar tika-app-1.4.jar --text testRTFJapanese.rtf | head -2 
ゾルゲの処刑記録、 
ゾルゲと尾崎、淡々と最期  

herhangi metne sağlamak açmanız yeterli olacaktır kullanımı komut satırı Tika uygulaması ve ilk birkaç satır kapmak ile, biz işe yarıyor bkz ürettiğiniz çıktı uygun bir kodlamada saklanır (örn. utf8) ve görüntülemek için kullandığınız yazı tipi bu glifleri destekler!

İlgili konular