Çince, Japonca gibi yabancı dil ayıklamak için Apache Tika mümkün mı? "?" Girdi Çince karakterler içeren bir doc dosyasıdırÇince, Japonca gibi yabancı dil ayıklamak için Apache Tika mümkün mı?
Detector detector = new DefaultDetector();
Parser parser = new AutoDetectParser(detector);
InputStream stream = new ByteArrayInputStream(bytes);
OutputStream outputstream = new ByteArrayOutputStream();
ContentHandler textHandler = new BodyContentHandler(outputstream);
Metadata metadata = new Metadata();
// Set<String> langs = LanguageIdentifier.getSupportedLanguages();
// metadata.set(Metadata.CONTENT_LANGUAGE, lang);
// metadata.set(Metadata.FORMAT, hint);
ParseContext context = new ParseContext();
try {
parser.parse(stream, textHandler, metadata, context);
String extractedText = outputstream.toString();
return extractedText;
} catch (IOException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (TikaException e) {
e.printStackTrace();
}
, her Çince karakterler olarak çıkartılacaktır:
Aşağıdaki kod var.
Çok teşekkürler!
Tika gayet onları idare etmek mümkün olmalıdır. Metni çıktı/görüntülediğinizde kodlamanın doğru olduğundan emin misiniz? – Gagravarr