2011-03-02 15 views
10

Basit bir metinden kalın ve italik sözcükleri ayıklamak için OCR kullanarak ilgileniyorum. Örneğin, eğer giriş şöyle metin ile net bir resim: "tembel köpeğin üstünden atlar hızlı kahverengi tilki"Yazı tipi stilini (kalın, italik) algılamak için OCR kullanabilir miyim?

Öyle şöyle bir çıktı elde etmek istiyorum: kalın, ("atlar" "kahverengi") italik ("tembel") Ben OCRopus veya Tesseract ile bunu içine baktım

ama belgelerdir fakir ve mümkün mü, yoksa nasıl yapılacağını söyleyemem.

cevap

9

Bagajdan Tesseract 3.0.1'de böyle bir işlev var. Yeni bir sınıf API eklenir - ResultIterator, ilgilendiğiniz aşağıdaki işlevi vardır:

WordFontAttributes(bool* is_bold, 
        bool* is_italic, 
        bool* is_underlined, 
        bool* is_monospace, 
        bool* is_serif, 
        bool* is_smallcaps, 
        int* pointsize, 
        int* font_id). 

Aslında tesseract 3.0x XML tabanlı hOCR biçimini içerir here.

+0

Yeni url: https://github.com/tesseract-ocr/tesseract/blob/3.01/api/resultiterator.h#L95 –

İlgili konular