• J4L Ferramentas de OCR é um poderoso conjunto de componentes desenhados para incluir recursos de OCR em aplicações Java. Isso significa que você pode receber faxes ou a digitalização de documentos e extrair informações de negócios a partir de imagens. O principal de 2 componentes são: · Java wrapper para o motor OCR Tesseract. O motor OCR Tesseract é fornecido sob a licença do Apache 2.0 e oferecemos suporte para uma versão compilada para windows apenas. · Um documento de texto analisador. A imagem processo de reconhecimento pode, portanto, ser dividida em 2 etapas: · O componente usa um arquivo de imagem (tif, png, jpg, etc) e retorna o texto contido nele. O Java wrapper irá realizar esta operação através do Tesseract. Alternativamente, você pode usar qualquer outro mecanismo de OCR. · Na segunda etapa, a aplicação de Java precisa entender o texto retornado pelo mecanismo de OCR. Isto é feito através de documento de analisador. O documento analisador utiliza como dados de entrada como seqüência de caracteres de texto (dados) e um arquivo xml que descreve a estrutura do documento e a saída é um negócio documento como um objeto Java ou como um arquivo XML
  • J4L OCR Araçları Java uygulamaları için OCR özellikleri eklemek için tasarlanmış bileşenleri bir dizi güçlü. Bu faks veya tarama belgeleri almak ve görüntülerden iş bilgileri ayıklamak anlamına gelir. 2 ana bileşeni vardır: · Tesseract OCR motoru için bir Java sarıcı. Apache 2.0 Lisansı altında teslim OCR Tesseract kendisi ve sadece windows için derlenmiş bir sürümü destekliyoruz. · Metin belge çözümleyici. Görüntü tanıma süreci bu nedenle iki adım ayrılabilir: · Bileşeni bir resim dosyası (tıf, png, jpg, vs.) alır ve içerdiği metni verir. Java sarıcı Tesseract kullanarak bu işlemi gerçekleştireceğiz. Alternatif olarak başka bir OCR motoru kullanabilirsiniz. İkinci adımda·, Java uygulama OCR motoru tarafından döndürülen metni anlamak gerekir. Bu belge çözümleyici tarafından yapılır. Belge çözümleyici (veri) metin dizesi olarak giriş ve belgenin yapısını tanımlayan xml dosyası olarak kullanır ve iş çıkış belgesi ya da Java bir nesne ya da bir XML dosyası olarak
  • J4L OCR Tools is a powerful set of components designed to include OCR capabilities in Java applications. That means you can receive faxes or scan documents and extract business information from the images.

    The main 2 components are:

    · A Java wrapper for the Tesseract OCR engine. The OCR engine Tesseract itself is delivered under the Apache 2.0 license and we support a version compiled for windows only.

    · A text document parser.

    The image recognition process can therefore be divided in 2 steps:

    · The component takes an image file (tif, png, jpg, etc) and returns the text contained in it. The Java wrapper will perform this operation by using Tesseract. Alternatively you can use any other OCR engine.

    · In the second step, your Java application needs to understand the text returned by the OCR engine. This is done by the document parser. The document parser uses as input as text string (the data) and a xml file that describes the structure of the document and the ouput is a business document either as a Java object or as a XML file