Teserakt "normal ifadenin" aa tür bir model kullanır izin verirse. Bu kullanılabilir aynı formatta tüm idi verilerle bir kitap tararken söylemek paterni kullanıcı deyişle kelimeleri bekliyoruz nasıl ike, ne olacağını biçimleri tesseract anlatmak için kullanılabilir Aşağıda nasıl Tesseract describes how to use patterns:..
Her bir desen, herhangi bir boşluk olmayan karakter içerebilir, ancak yalnızca karşılık gelen dilin tekil paylaşımından karakterleri içeren kalıplar işe yarar.
Yalnızca üst karakter \
'dur. Normal bir dize olarak bir desende kullanılmak üzere \
ile çıkarılmalıdır (ör. C:\Documents
dize desen dosyasında C:\\Documents
olarak yazılmalıdır).
Bu işlev çok sınırlı bir düzenli ifade sözdizimini destekler. Bir karakter, belirli bir karakter sınıfı ve varlığın desende tekrarlanması gereken sayıda ifade edilebilir.
bir karakter sınıfını kullanımını göstermek için, biri:
\c
- UNICHARSET::get_isalpha()
doğru olduğu unichar (karakter)
\d
-UNICHARSET::get_isdigit()
için unichar - UNICHARSET::get_isdigit()
\n
doğru olduğu unichar ve \p
- unichar için hangi UNICHARSET::get_ispunct()
doğru
\a
-UNICHARSET::get_islower()
doğru olduğu unichar
\A
- UNICHARSET::get_isupper()
\*
her karakter veya model sonra belirtilen olabilir doğru olduğu unichar karakter/model tekrarlanabilir olduğunu belirtmek için Bir sonraki karakter/desen oluşmadan önce herhangi bir sayıda.
Örnekler:
1-8\d\d-GOOG-411
dizelerine genişletilecek: 1-800-GOOG-411
, 1-801-GOOG-411
... 1-899-GOOG-411
. "ww.a.com"
"ww.a123.com"
... "ww.ABCDefgHIJKLMNop.com"
Not: seçeceği olarak yavaş teserakt çalışmasını sağlayacaktır çok genel kalıplarını sağlayan farkında olun içerecek şekilde desenler
"ww.\n\*.com"
gibi dizeleri için genişletilecektir. Örneğin, paternin başlangıcında \n\*
, Tesseract'in, her bir bölümleme için önerilen karakter seçeneklerinin tüm kombinasyonlarını kabul edeceğini, ki bu da kabul edilemeyecek kadar yavaş olacaktır.Tanımlanması zor olabilecek hızdaki olası problemlerden dolayı, her kullanıcı modelinin başlangıçta unicharset
'dan en az kSaneNumConcreteChars
somut karaktere sahip olması gerekir.
'çarşı' yapılandırma dosyasını eklemeyi denediniz mi? Bkz. [Tesseract (1)] (http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html#_config_files_and_augmenting_with_user_data) – pvorb