این فناوری بسیار پیشرفته که به دانشجویان و مترجمان کمک می کند تا فایل های اسکن شده را به متن تبدیل کنند OCRنام دارد. به عبارت ساده تر باید گفت فناوری OCRبه معنای تشخیص و بازشناسی اتوماتیک متن های موجود در تصاویر است. با استفاده از این نرم افزار پیشرفته، متن های تصویری قابلیت ویرایش پیدا می کنند.
این فناوری به دو روش دست نویس و تایپ شده انجام می گیرد. در روش دست نویس، متنی وارد رایانه می شود که با دست نوشته شده و در روش تایپی، متنی در دسترس کامپیوتر قرار می گیرد که قبلا تایپ شده و در اسناد مختلف مانند روزنامه ها و سایر اسناد منتشر شده است.
متن هایی هستند که در آنها حروف و کاراکتر ها جدا از هم نوشته می شوند. نمونه این متن ها را در فرم های اطلاعاتی مشاهده می کنیم که نام و نام خانوادگی کاربر را به صورت حروف حروف نشان می دهد.
این متن ها هر روز و به طور مستمر نوشته می شوند مانند خاطرات، نامه ها و یا روز نوشته ها
اولین کاری که کاربر باید انجام دهد این است که یک اسکنر در اختیار داشته باشد تا بتواند فرم فیزیکی سند را مورد پردازش قرار دهد. پس از اینکه کپی تمامی صفحات سند، انجام شد نرم افزار به طور خودکار تمامی محتوای متن را به شکل نسخه ای سیاه و سفید پردازش می کند. نحوه بازخوانی تصویر اسکن شده به این شکل است که قسمت های تاریک به عنوان کاراکتر های متنی شناسایی می شوند و قسمت های سفید هم به عنوان زمینه متن پردازش خواهند شد. به طور کلی در راستای استفاده از تکنولوژی OCRنیاز به پردازش رایانه ای دارید. در ابتدا می بایست تصویر حاوی متن را اسکن کرده به قسمت های مجزا تقسیم نمایید و سپس با استفاده از رایانه، پردازشی بر روی فایل مورد نظر انجام دهید. فناوری OCRضمن برخورداری از الگوریتم های پردازش تصویر و همچنین استفاده از هوش مصنوعی سریعا کاراکتر های داخل متن را فراخوانی می کند و به شکل متن نمایش می دهد. در صورتی که متن چرخیده باشد، رایانه به طور اتوماتیک آن را می چرخاند و در نهایت آن را مورد پردازش قرار می دهد.
به جهت اسکن زبان انگلیسی، ابزار های بسیار متعددی وجود دارند که به راحتی متن اسکن شده را به متن دیجیتالی تبدیل می کنند. در زبان فارسی نیز ابزار های مشابه مانند ابزار OCR مورد استفاده قرار می گیرد که معمولا بیشترین کارآیی را در جهت تبدیل متن از کتاب یا مقاله چاپ شده دارد. فرآیند نرم افزار OCR به شرح زیر می باشد:
با توجه به اینکه خروجی نهایی OCR در کیفیت متن تاثیر زیادی دارد بهتر است ابتدا با انجام راهکار های تخصصی همچون اسکن کردن مجدد، پرینت کردن با تغییر کنتراست با کیفیت ترین نسخه چاپی از متن اولیه را آماده سازی نمایید. عواملی همچون لکه دار بودن تصویر، کثیف بودن کاغذ و حتی نشت جوهر می تواند کیفیت خروجی متن را تا حد زیادی کاهش دهد.
به طور کلی قسمت های سیاه رنگ به دو شکل کلی زیر مورد تجزیه و تحلیل قرار می گیرند:
در تشخیص الگویی، نرم افزار OCR فونت و قالب خاصی را ارائه می دهد تا زمینه تشخیص کاراکتر ها فراهم شود.
این نرم افزار در نظر گرفتن قوانین خاصی مانند تعداد خط های زاویه دار، متقاطع و یا خطوط منحنی، ویژگی های مرتبط با یک کاراکتر را تشخیص می دهد. حرف A انگلیسی را در نظر بگیرید؛ این حرف به شکل دو خط مورب با یک خط افقی در وسط آن پردازش می شود. با شناسایی هر کاراکتر، یک کد ASCIIساخته می شود. امکان دستکاری این کد توسط رایانه ها وجود دارد.