2013-06-20 21 views
11

Kullanıcı desenlerini (user_patterns_suffix) Tesseract'ta nasıl kullanacağınızı biliyor musunuz? Bunun nasıl yapılacağını ve nasıl çalıştığını nasıl test edersiniz? Ben (Tessearct user-patterns tesseract kılavuzu takip etmeye çalıştım ama hiç bir sonuç etkilenen görmedik.Tesseract kullanıcı kalıpları

teşekkürler.

+0

'çarşı' yapılandırma dosyasını eklemeyi denediniz mi? Bkz. [Tesseract (1)] (http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html#_config_files_and_augmenting_with_user_data) – pvorb

cevap

16

Teserakt "normal ifadenin" aa tür bir model kullanır izin verirse. Bu kullanılabilir aynı formatta tüm idi verilerle bir kitap tararken söylemek paterni kullanıcı deyişle kelimeleri bekliyoruz nasıl ike, ne olacağını biçimleri tesseract anlatmak için kullanılabilir Aşağıda nasıl Tesseract describes how to use patterns:..

Her bir desen, herhangi bir boşluk olmayan karakter içerebilir, ancak yalnızca karşılık gelen dilin tekil paylaşımından karakterleri içeren kalıplar işe yarar.

Yalnızca üst karakter \'dur. Normal bir dize olarak bir desende kullanılmak üzere \ ile çıkarılmalıdır (ör. C:\Documents dize desen dosyasında C:\\Documents olarak yazılmalıdır).

Bu işlev çok sınırlı bir düzenli ifade sözdizimini destekler. Bir karakter, belirli bir karakter sınıfı ve varlığın desende tekrarlanması gereken sayıda ifade edilebilir.

bir karakter sınıfını kullanımını göstermek için, biri:

  • \c - UNICHARSET::get_isalpha() doğru olduğu unichar (karakter)
  • \d-UNICHARSET::get_isdigit() için unichar - UNICHARSET::get_isdigit()
  • \n doğru olduğu unichar ve \p - unichar için hangi UNICHARSET::get_ispunct() doğru
  • \a-UNICHARSET::get_islower() doğru olduğu unichar
  • \A - UNICHARSET::get_isupper()

\* her karakter veya model sonra belirtilen olabilir doğru olduğu unichar karakter/model tekrarlanabilir olduğunu belirtmek için Bir sonraki karakter/desen oluşmadan önce herhangi bir sayıda.

Örnekler:

1-8\d\d-GOOG-411 dizelerine genişletilecek: 1-800-GOOG-411, 1-801-GOOG-411 ... 1-899-GOOG-411. "ww.a.com""ww.a123.com" ... "ww.ABCDefgHIJKLMNop.com"

Not: seçeceği olarak yavaş teserakt çalışmasını sağlayacaktır çok genel kalıplarını sağlayan farkında olun içerecek şekilde desenler

"ww.\n\*.com" gibi dizeleri için genişletilecektir. Örneğin, paternin başlangıcında \n\*, Tesseract'in, her bir bölümleme için önerilen karakter seçeneklerinin tüm kombinasyonlarını kabul edeceğini, ki bu da kabul edilemeyecek kadar yavaş olacaktır.Tanımlanması zor olabilecek hızdaki olası problemlerden dolayı, her kullanıcı modelinin başlangıçta unicharset'dan en az kSaneNumConcreteChars somut karaktere sahip olması gerekir.

+1

Bağlantı bozuk –

+1

Burada GitHub repo linki: https: //github.com/tesseract-ocr/tesseract/blob/442b5b731a3ec49dc143dc6533667b8cb62ee9a0/dict/trie.h#L192 – Federinik

+0

@Federinik Çok teşekkürler! Bunu aramak için çok zaman geçirdim, sonunda buldum! –

İlgili konular