Logiciel OCR et Solution pour le livre, Journal, Magazine


Original: http://www.expervision.com/find-ocr-software-by-document-types/ocr-software-for-book-newspaper-magazine-1

Système typique & Application

Le client est une bibliothèque nationale en train de créer une bibliothèque électronique. Certains fichiers, imprimés près de 100 ans comme les journaux de Lettonie et magazines utilisant des polices gothiques pour convertis en fichiers électroniques. Responsable de l’identification des documents volumineux, sera un élément important de projets de bibliothèques numériques, OCR

Fonctions OCR & problèmes

Technologie OCR est une partie importante de tout système de gestion de document, dans lequel les OCR est principalement utilisé pour reconnaître des caractères dans une image pour réduire le temps de saisie manuelle. Le dessous des problèmes surviennent souvent pendant la reconnaissance.

  • Dégradé de documents : les journaux d’être reconnus sont près de 100 ans, ce qui conduit à l’adhérence de caractère, de pénétration de l’encre recto-verso, de bruit excessif et d’autres questions. Les résultats de reconnaissance seront utilisé pour la recherche de contenu, le taux de précision requises Mathilde précision de plus de quatre-vingts pour cent, qui est presque impossible à réaliser si vous utilisez les outils d’analyse classiques.
  • Texte de l’ancienne police : au début du XXe siècle, les premières tentatives ont été faites pour créer le système d’écriture letton issu des influences allemandes, comme le texte en langue allemande de l’époque. Journaux et livres lettons ont été imprimés à l’aide de polices gothiques qui sont très différents des polices latines utilisées dans les temps modernes. Toutefois, les polices gothiques pour textes imprimés de lettons ont été abandonnés dans les années 1930 et aucuns polices similaires n’ont été utilisés pendant de nombreuses années. Avec une telle police d’archaïque, il n’y n’avait aucun OCR permettant de reconnaître les caractères obsolètes
  • Les caractères nationaux spéciaux : au début du XXe siècle, plusieurs maisons d’édition lettons inventent leurs propre « dialectes » de caractère ; gothiques polices étaient complétés par des changements irréguliers avec des mots spécifiques à ce moment-là. Collecte de tous ces différents personnages apparaissant dans cette période a été le travail principal avant la reconnaissance, qui exigerait des efforts, de temps et de travail physique importante. En outre, reconnaissant tous les personnages ont augmenté la difficulté de reconnaissance, qui ne peut être atteint que si le moteur d’OCR est personnalisé.
  • Spéciale outil de traduction: À cette époque, orthographe letton était très différente de celle du système modern, qui avait besoin de règles de conversion pour comparer le résultat de la reconnaissance de caractères anciens avec la base de mots modernes pour réaliser la fonction de correction automatique. La règle de traduction étant spéciale, il n’y a aucun logiciel en vente libre qui peut résoudre ce problème, à moins que le vendeur de l’OCR fournit le service de personnalisation.
  • Intégration de systèmes : NLL a décidé d’utiliser le logiciel d’archivage de document actif d’Olive pour les outils d’information retrieval, accès et gestion. Bien que le logiciel dispose de fonctions OCR, il ne supporte pas la reconnaissance de la police gothique Lettonie spécial. Si le nouveau logiciel d’OCR doit être intégré à l’application d’EFLV et les résultats de reconnaissance devaient être partagés.

Notre Solution

Basé sur tous les problèmes ci-dessus, pour répondre aux besoins de nos clients nous avons personnalisé notre standard RTK prépare aux échantillons d’image du client.

  • Outil d’analyse personnalisés pour améliorer la qualité de l’image
  • Formation groupée pour améliorer la précision de l’OCR
  • Processus de développement de logiciels supplémentaires pour l’efficacité et l’efficience
  • Recherche & de développement avec les avantages des deux parties
  • Tirer parti de processus, la technologie et les facteurs humains

Comments are closed.