OCR, optik karakter tanıma sistemidir veya İspanyolca'da optik karakter tanıma olarak da bilinir. OCR , metin tanımayı etkinleştiren, bir görüntüsünü bir dizi karaktere dönüştürmek için üreten ve ardından bunları bu metin düzenleme programlarında kullanılabilecek belirli bir formatta kaydeden bir yazılımdır. Diğer bir deyişle, bu yeni teknoloji sayesinde, PDF dosyaları, taranmış kağıtlar ve hatta dijital kameralardan alınan görüntüler dahil olmak üzere her türlü metin veya belge, düzenleme imkanına sahip olmak için veriye dönüştürülebilir.
Bu yazılım şu şekilde çalışır, önce söz konusu belgenin görselinin her bir parçasını analiz eder; Sayfayı diğerlerinin yanı sıra tablolar, resimler, metin blokları gibi parçalar halinde dağıtın; daha sonra satırlar, daha sonra karakter haline gelmek üzere kelimeler halinde dağıtılır; ve karakterler halihazırda belirtilmiş olduğundan, yazılım, modelin bir grup görüntüsü ile karşılaştırma yapar. Bu, her karakterin ne olduğuna dair hipotezler dizisine göre ilerler; ve bu hipotezlere dayanarak, satırları kelimelere ve kelimeleri karakterlere ayırmanın farklı varyantlarını analiz eder. Ve hipotezlerin çok sayıda analizi ve işlenmesinden sonra, program nihayet halihazırda tanınan ve yeni bir formatla dönüştürülmüş metni sunar..
Unutulmamalıdır bugün programları bir dizi olduğu böyle OmniPage'e, Abbyy Fine Reader veya ReadIris olarak OCR dayalı bilgisayar pazarı teklifler. Yalnızca bir metni analiz etme ve tanıma becerisine sahip olmakla kalmayıp, aynı zamanda biçim ve stili de tanıyan, dolayısıyla belirli sınırlamalarla metnin analiz edildikten sonra, mevcut ayarlamaları yapmak için düzenlenmesini gerektiren gerektirir.