Yazı tipi stilini (kalın, italik) algılamak için OCR kullanabilir miyim?

Basit bir metinden kalın ve italik sözcükleri ayıklamak için OCR kullanarak ilgileniyorum. Örneğin, eğer giriş şöyle metin ile net bir resim: "tembel köpeğin üstünden atlar hızlı kahverengi tilki"Yazı tipi stilini (kalın, italik) algılamak için OCR kullanabilir miyim?

Öyle şöyle bir çıktı elde etmek istiyorum: kalın, ("atlar" "kahverengi") italik ("tembel") Ben OCRopus veya Tesseract ile bunu içine baktım

ama belgelerdir fakir ve mümkün mü, yoksa nasıl yapılacağını söyleyemem.

kaynak

2011-03-02 vamin

Bagajdan Tesseract 3.0.1'de böyle bir işlev var. Yeni bir sınıf API eklenir - ResultIterator, ilgilendiğiniz aşağıdaki işlevi vardır:

WordFontAttributes(bool* is_bold, 
        bool* is_italic, 
        bool* is_underlined, 
        bool* is_monospace, 
        bool* is_serif, 
        bool* is_smallcaps, 
        int* pointsize, 
        int* font_id).

Aslında tesseract 3.0x XML tabanlı hOCR biçimini içerir here.

kaynak

2011-03-07 11:49:59 zkunov

Yeni url: https://github.com/tesseract-ocr/tesseract/blob/3.01/api/resultiterator.h#L95 –