OCRچيست؟
OCR كه سررشته كلمات Optical Character Recognition مي باشد، به تكنيكي اطلاق مي شود كه در طي آن يك برنامه كامپيوتري متون موجود درتصاوير ديجيتالي را شناسايي كرده و آنها را به صورت خودكار به فايلهاي متني قابل ويرايش تبديل مي كند.ترجمة مناسبي كه در زبان فارسي براي نرم افزارOCR در نظر گرفته شده است نويسه خوان نوری مي باشد و نام نويسه خوان آراكس نيز بر همين مبنا بوجود آمده است.
اولين راهي كه به ذهن مي رسد و متأسفانه تا كنون در مورد متون فارسي مورد استفاده قرار گرفته است، اين است كه متن موجود در اين اسناد دوباره بوسيله اپراتور تايپ شود. بديهي است اين كار بسيار وقت گير است، به علاوه وقتي بخواهيم حجم انبوه اسناد مكتوب را به صورت ديجيتال درآوريم ، اين مشكلات نمود بيشتري خواهد داشت. دومين راهي كه با گسترش فناوري اطلاعات در سالها ي اخير در بسياري از سازمانها مورد استفاده قرار گرفته است ، تصوير برداري از روي اسناد كاغذي به وسيله اسكنرها و انتقال تصاوير ديجيتالي توليد شده به سيستم هاي كامپيوتري مي باشد. گر چه در اين روش با ايجاد آرشيو الكترونيكي از اسناد بهبود نسبي در فرآيند نگهداري اسناد و دستيابي به آنها ايجاد شده است اما كماكان امكان جستجو در داخل متن اين اسناد و بهره برداري از آنها وجود ندارد ، به عبارت ديگر تصاوير ديجيتالي اسناد كه با استفاده از اسكنر بدست مي آيند فاقد ارزش كافي مي باشند مگر آنكه بتوان در متن آنها جستجو نمود. نرم افزار OCR مشكل فوق را برطرف مي كند، به اين ترتيب كه تصوير ديجيتال اسناد را دريافت كرده و با تحليل محتواي آنها اطلاعات مختلف موجود را شناسايي كرده و با توجه به نوع آنها، فرآيند تبديل خودكار تصوير به متن را انجام مي دهد.
شكل زير فرآيند OCR را با جزئيات بيشتري نشان مي دهد. در اين شكل مراحل مختلف OCR كه به صورت جعبه سياه معرفي شده بودند ، تشريح شده است:
سپس با توجه به نوع ناحيه ، نويسه خوان آراكس اقدام لازم را انجام داده و اطلاعات موجود را شناسايي مي كند:
- نواحي متني پردازش شده ومتن موجود در آنها با حفظ نوع قلم خوانده مي شوند.
در مرحله بعد نويسه خوان آراكس اطلاعات خوانده شده را در يك ويرايشگر استاندارد به شما نشان مي دهد . مي توانيد با اعمال غلط ياب فارسي و انگليسي، اشتباهات احتمالي را به سرعت تصحيح نماييد.
در انتهاي فرآيند OCR، فايل خروجي كه داراي كليه اطلاعات سند ورودي است توليد مي شود.
مقایسهOCR فارسی با لاتین
براي زبانهاي لاتين مانند انگليسي و فرانسه از سالها قبل نرم افزارهاي OCR بوجود آمده و سير تكاملي خود را طي نموده اند. اما متأسفانه تا كنون براي زبان فارسي با تاريخ چند هزار ساله، نرم افزار OCR مناسب توليد نشده است.
يكي از دلايل اين امر پيچيدگي بالا و مشكل بودن ساختار و نوشتار زبان فارسي در مقايسه با زبانهاي لاتين مي باشد.به عنوان مثال از آنجا كه در زبانهاي لاتين نويسه ها (كاراكترها) به صورت مجزا از هم نوشته مي شوند كار شناسايي آنها بسيار ساده است اما در زبان فارسي ابتدا بايد كلمات (كه داراي كاراكترهاي متصل هستند) به كاراكترهاي مجزا تبديل شوند اين فرآيند با توجه به تنوع قلم ها در زبان فارسي يكي از مشكل ترين بخش هاي سيستم OCR است.
OCR كه سررشته كلمات Optical Character Recognition مي باشد، به تكنيكي اطلاق مي شود كه در طي آن يك برنامه كامپيوتري متون موجود درتصاوير ديجيتالي را شناسايي كرده و آنها را به صورت خودكار به فايلهاي متني قابل ويرايش تبديل مي كند.ترجمة مناسبي كه در زبان فارسي براي نرم افزارOCR در نظر گرفته شده است نويسه خوان نوری مي باشد و نام نويسه خوان آراكس نيز بر همين مبنا بوجود آمده است.
لزوم استفاده از OCR
فرض كنيد شما يك متن كاغذي مانند نام، قرارداد، RFP، مقاله، كتاب و ... را در اختيار داريد و بايد آن را وارد كامپيوتركنيد تا در مطالعات خود يا تهيه گزارشات و ... مورد استفاده قرار دهيداولين راهي كه به ذهن مي رسد و متأسفانه تا كنون در مورد متون فارسي مورد استفاده قرار گرفته است، اين است كه متن موجود در اين اسناد دوباره بوسيله اپراتور تايپ شود. بديهي است اين كار بسيار وقت گير است، به علاوه وقتي بخواهيم حجم انبوه اسناد مكتوب را به صورت ديجيتال درآوريم ، اين مشكلات نمود بيشتري خواهد داشت. دومين راهي كه با گسترش فناوري اطلاعات در سالها ي اخير در بسياري از سازمانها مورد استفاده قرار گرفته است ، تصوير برداري از روي اسناد كاغذي به وسيله اسكنرها و انتقال تصاوير ديجيتالي توليد شده به سيستم هاي كامپيوتري مي باشد. گر چه در اين روش با ايجاد آرشيو الكترونيكي از اسناد بهبود نسبي در فرآيند نگهداري اسناد و دستيابي به آنها ايجاد شده است اما كماكان امكان جستجو در داخل متن اين اسناد و بهره برداري از آنها وجود ندارد ، به عبارت ديگر تصاوير ديجيتالي اسناد كه با استفاده از اسكنر بدست مي آيند فاقد ارزش كافي مي باشند مگر آنكه بتوان در متن آنها جستجو نمود. نرم افزار OCR مشكل فوق را برطرف مي كند، به اين ترتيب كه تصوير ديجيتال اسناد را دريافت كرده و با تحليل محتواي آنها اطلاعات مختلف موجود را شناسايي كرده و با توجه به نوع آنها، فرآيند تبديل خودكار تصوير به متن را انجام مي دهد.
فناوريOCR
چنانچه فرآيندOCR رابه صورت يك (Black Box) در نظر بگيريم ورودي آن تصوير سند مورد نظر و خروجي آن فايل ديجيتالي قابل ويرايش از اطلاعات سند (مثلاً به فرمت MS- Word) مي باشد.

به عنوان مثال فرآيند OCR به ترتيب زير انجام مي شود.
با دريافت تصوير يك سند، ابتدا فرآيند، تحليل محتوا مي شود و نواحي مختلف اطلاعاتي در تصوير شناسايي مي شوند.شكل زير نمونه اي از تصوير يك سند را نشان مي دهد كه شامل 3 نوع ناحيه مختلف مي باشد: ناحيه متني، ناحيه تصويري و ناحيه جدول.سپس با توجه به نوع ناحيه ، نويسه خوان آراكس اقدام لازم را انجام داده و اطلاعات موجود را شناسايي مي كند:
- نواحي متني پردازش شده ومتن موجود در آنها با حفظ نوع قلم خوانده مي شوند.
- نواحي تصويري دقيقاً مانند تصوير ورودي حفظ مي شوند.
- تك تك سلولهاي جدول در نواحي جدولي شناسايي شده و متن درون آنها خوانده مي شود. سپس به صورت يك جدول قابل ويرايش در خروجي قرار داده مي شود.در مرحله بعد نويسه خوان آراكس اطلاعات خوانده شده را در يك ويرايشگر استاندارد به شما نشان مي دهد . مي توانيد با اعمال غلط ياب فارسي و انگليسي، اشتباهات احتمالي را به سرعت تصحيح نماييد.
در انتهاي فرآيند OCR، فايل خروجي كه داراي كليه اطلاعات سند ورودي است توليد مي شود.

براي زبانهاي لاتين مانند انگليسي و فرانسه از سالها قبل نرم افزارهاي OCR بوجود آمده و سير تكاملي خود را طي نموده اند. اما متأسفانه تا كنون براي زبان فارسي با تاريخ چند هزار ساله، نرم افزار OCR مناسب توليد نشده است.
يكي از دلايل اين امر پيچيدگي بالا و مشكل بودن ساختار و نوشتار زبان فارسي در مقايسه با زبانهاي لاتين مي باشد.به عنوان مثال از آنجا كه در زبانهاي لاتين نويسه ها (كاراكترها) به صورت مجزا از هم نوشته مي شوند كار شناسايي آنها بسيار ساده است اما در زبان فارسي ابتدا بايد كلمات (كه داراي كاراكترهاي متصل هستند) به كاراكترهاي مجزا تبديل شوند اين فرآيند با توجه به تنوع قلم ها در زبان فارسي يكي از مشكل ترين بخش هاي سيستم OCR است.