kalerkantho

শুক্রবার । ২ ডিসেম্বর ২০২২ । ১৭ অগ্রহায়ণ ১৪২৯ ।  ৭ জমাদিউল আউয়াল ১৪৪৪

অবশেষে বাংলা ওসিআর

তুহিন মাহমুদ   

২ এপ্রিল, ২০১৪ ০০:০০ | পড়া যাবে ৬ মিনিটে



অবশেষে বাংলা ওসিআর

\'টিম ইঞ্জিন\'-এর তৈরি ওসিআরে ছবি থেকে রূপান্তর করা বাংলা টেক্সট

অপটিক্যাল ক্যারেক্টর রিকগনিশন বা ওসিআর হলো ডিজিটাল ছবি বা স্ক্যান করা ছবি থেকে টেক্সটকে যন্ত্রে পাঠযোগ্য টেক্সটে রূপান্তর করার সফটওয়্যার। ইংরেজিসহ কয়েকটি ভাষায় ভালো ভালো ওসিআর থাকলেও বাংলা সমর্থনযোগ্য ভালো কোনো ওসিআর এত দিন ছিল না। 'টিম ইঞ্জিন' প্রথমবারের মতো সফলভাবে বাংলা ওসিআর তৈরি করতে সক্ষম হয়েছে। বিস্তারিত জানাচ্ছেন তুহিন মাহমুদ

'অপটিক্যাল ক্যারেক্টর রিকগনিশন' বা 'ওসিআর' এমন একটি সফটওয়্যার যা হাতে লেখা, টাইপ করা ও ছাপার হরফের লেখাকে যন্ত্রে পাঠযোগ্য লেখায় রূপান্তর করতে পারে।

বিজ্ঞাপন

ওসিআরের সুবিধা হলো, এটি ছবিতে সংরক্ষিত অক্ষরও চিনতে পারে। ফলে ছবির অক্ষরকে স্ক্যান করে অথবা ছবি তুলে টেক্সট ফাইলে রূপান্তর করা যাবে।

বাংলায় ওসিআর

প্রযুক্তিতে বাংলা ভাষাকে আরো কার্যকর করতে অপরিহার্য বাংলা ওসিআর। এর মাধ্যমে বাংলা ভাষায় রচিত নতুন, পুরনো সব প্রকাশনা সহজে স্থায়ীভাবে সংরক্ষণ করা সম্ভব হবে।

বাংলা ভাষার জন্য ওসিআর তৈরিতে বেশ কয়েকবার উদ্যোগ নেওয়া হলেও সফল হয়নি। ২০০৯ সালে ব্র্যাক বিশ্ববিদ্যালয় সেন্টার ফর রিসার্চ অন বাংলা ল্যাঙ্গুয়েজ প্রসেসিং সিআরবিএলপি ওসিআর তৈরির উদ্যোগ নেয়। তবে তাদের সফটওয়্যারটি বাংলা ভাষাকে কার্যকর ওসিআর সুবিধা দিতে পারেনি। গত বছরের অক্টোবরে সার্ভিস ইনোভেশন ফান্ডের আওতায় বাংলা ওসিআর তৈরির জন্য ইউনাইটেড ইন্টারন্যাশনাল ইউনিভার্সিটিকে ২৩ লাখ টাকা অনুদান দেয় প্রধানমন্ত্রীর কার্যালয়ের প্রকল্প অ্যাক্সেস টু ইনফরমেশন (এটুআই)। সেটির সফলতা এখনো সামনে আসেনি। অবশেষে আশার আলো দেখাল 'টিম ইঞ্জিন'। এ মাসের শেষেই সবার জন্য উন্মুক্ত হতে যাচ্ছে সফটওয়্যারটি।

বাংলা ওসিআর ও টিম ইঞ্জিন

সামাজিক কল্যাণ ও মুনাফা দুই-ই নিশ্চিত হয়, এমন সব প্রকল্প নিয়ে কাজ করে 'টিম ইঞ্জিন'। বাংলাদেশের উদ্যোক্তা উন্নয়ন, স্বাস্থ্যসেবা তথ্য সরবরাহ ও বাংলা ভাষা এবং সংস্কৃতি সংরক্ষণের জন্য তিনটি ভিন্ন প্রকল্প নিয়ে এখন কাজ করছে প্রতিষ্ঠানটি। এসব প্রকল্পের কাজে অনলাইন লাইব্রেরি 'অ্যানসেস্টর' তৈরি করতে গিয়ে বাংলা ওসিআর প্রয়োজন হয়ে পড়ে তাদের। তাই নিজেরাই বাংলা ওসিআর তৈরির সিদ্ধান্ত নেয় তারা।

টিম ইঞ্জিনের বাংলা ওসিআর

শাহজালাল বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়ের অধ্যাপক ড. মুহম্মদ জাফর ইকবালের পরামর্শে ২০১২ সালের ডিসেম্বরে বাংলা ওসিআর তৈরির কাজ শুরু করে 'টিম ইঞ্জিন'। সফটওয়্যার আর্কিটেক্ট এস এম আল-আমিনের নেতৃত্বে ১৫ জন এ প্রকল্পে কাজ করেন। এ সময় সার্বক্ষণিক সহযোগিতা করেন তথ্য ও যোগাযোগ প্রযুক্তি মন্ত্রণালয়ের (বর্তমানে ডাক, টেলিযোগাযোগ ও তথ্যপ্রযুক্তি মন্ত্রণালয়ের তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ) সচিব নজরুল ইসলাম খান। এ ছাড়া অর্থমন্ত্রী আবুল মাল আবদুল মুহিত, টিম ইঞ্জিনের চেয়ারম্যান ড. হাসান ইমাম, মাইক্রোক্রাফট বাংলাদেশের স্বত্বাধিকারী ইফতেখার আবদুল হাই, অ্যামটবের মহাসচিব টি আই এম নূরুল কবির এবং মো. মোর্শেদ নানা পরামর্শ ও প্রেরণা দেন বলে জানান টিম ইঞ্জিনের ব্যবস্থাপনা পরিচালক সামিরা জুবেরী হিমিকা।

আল-আমিন সম্রাট মূলত কারিগরি বিষয়গুলো নিয়ে কাজ করেন। গবেষণা পর্যায়ে কাজ করেন প্রতিষ্ঠানটির গবেষণা ও উন্নয়ন বিভাগের প্রধান এইচ এম শাহরিয়ার। দলের অন্য সদস্যরা কোডিংয়ের কাজ করেন। আল-আমিন বলেন, "বাংলা ওসিআর তৈরিতে সবচেয়ে বেশি সময় লেগেছে পরিকল্পনা পর্যায়ে। কারণ আমরা চেয়েছিলাম একটি পরিপূর্ণ ওসিআর তৈরি করতে। অন্য কোনো ইঞ্জিনের (বিশেষ সফটওয়্যার) ওপর নির্ভর করে বাংলা ওসিআর তৈরি করলে সেটির কার্যকারিতা কম হতো। তাই প্রথমে সম্পূর্ণভাবে 'বাংলা ইঞ্জিন' তৈরি করা হয়। এরপর এই ইঞ্জিনের ওপর ভিত্তি করে বাংলা ওসিআর তৈরি করা হয়েছে। "

প্রাথমিক পরীক্ষায় দেখা গেছে, টিম ইঞ্জিনের বাংলা ওসিআর সুতন্বীসহ ষাটের দশকে ব্যবহৃত ফন্ট স্ক্যান করেও সর্বনিম্ন ৯৪ শতাংশ সফল 'আউটপুট' দিতে পারে। এ ছাড়া এটি বাংলায় টাইপ করা বা লেখা একটি ইমেজকে স্ক্যান করলে ইমেজের কনটেন্ট সরাসরি ইউনিকোড ফরম্যাটে চলে আসে। ফলে এটি সহজেই ওয়েবে কিংবা ডিজিটালভাবে সংরক্ষণ করা যায়। প্রতি মিনিটে তিন পৃষ্ঠা স্ক্যান করে আউটপুট দিতে পারে সফটওয়্যারটি।

হিমিকা জানান, বাংলা ওসিআরের পূর্ণাঙ্গ সংস্করণ মুক্ত সফটওয়্যার (ওপেন সোর্স) হিসেবে প্রকাশ করা হবে। ফলে যে কেউ এটির উন্নয়নে অংশ নিতে পারবেন।

বাংলা ওসিআর তৈরিতে এখন পর্যন্ত কোনো আর্থিক সহযোগিতা পায়নি টিম ইঞ্জিন। ২০১৩ সালে তথ্য ও যোগাযোগ প্রযুক্তি মন্ত্রণালয়ের প্রকল্প হিসেবে এটি জমা দেওয়া হয়। বিষয়টি এখনো প্রক্রিয়াধীন রয়েছে।

বাংলা ওসিআরের সম্ভাবনা

পূর্ণাঙ্গভাবে বাংলা ওসিআর উন্মুক্ত হলে সরকারি-বেসরকারি প্রতিষ্ঠান থেকে শুরু করে নতুন-পুরনো বই, নথি ডিজিটালাইজড করা যাবে। এতে এসব বই, নথি একেবারে হারিয়ে যাওয়ার হাত থেকে রক্ষা পাবে। বই, নথি, কাগজের স্তূপ থেকে ঘণ্টার পর ঘণ্টা ব্যয় করে কোনো তথ্য খুঁজে বের করতে হবে না। ওয়েবে থাকলে সার্চ দিলেই সব তথ্য পাওয়া যাবে। এ ছাড়া অনলাইন লাইব্রেরি প্রতিষ্ঠায় বাংলা ওসিআর একটি গুরুত্বপূর্ণ ভূমিকা রাখতে পারবে।

সরকারের পক্ষ থেকে ডিজিটাল বাংলাদেশ ও কাগজ-ফাইলবিহীন যে অফিসের পরিকল্পনা বাস্তবায়নের চেষ্টা করা হচ্ছে সেখানেও ভূমিকা রাখতে পারবে বাংলা ওসিআর। এই সফটওয়্যারের মাধ্যমে আগের সব ফাইল ডিজিটালভাবে ওয়েব/সার্ভার কিংবা কম্পিউটারের হার্ডডিস্কে সংরক্ষণ করা যাবে।

আসছে এই এপ্রিলেই

হিমিকা জানান, অর্থমন্ত্রী আবুল মাল আবদুল মুহিত ও আইসিটি সচিব নজরুল ইসলাম খানের উৎসাহে সফটওয়্যারটি এ পর্যায়ে এসেছে। তাই এপ্রিলের শেষ নাগাদ এ দুজনের উপস্থিতিতে বাংলা ওসিআরের আনুষ্ঠানিকভাবে উদ্বোধন করা হবে।

আরো আসছে বাংলা টেক্সট টু স্পিচ সফটওয়্যার

বাংলা ওসিআর সফটওয়্যার ছাড়াও টিম ইঞ্জিন তৈরি করেছে 'বাংলা টেক্সট টু স্পিচ সফটওয়্যার'। বর্তমানে যেসব ইংরেজি টেক্সট টু স্পিচ সফটওয়্যার রয়েছে সেগুলোর মাধ্যমেও 'লেখ্য বাংলা' শোনা যায়। তবে সেটির জন্য অনেক জটিল প্রক্রিয়ার মধ্য দিয়ে যেতে হয়। কেননা এ জন্য বাংলা লেখাকে ইংরেজি অক্ষরে লিখতে হয়। কিন্তু বাংলা টেক্সট টু স্পিচ সফটওয়্যারটি 'বাংলা লেখা' থেকেই বাংলা পড়ে শোনাবে। এটি বাংলা টেক্সটকে শনাক্ত করতে পারে এবং পড়তে পারে। কোথায় থামতে হবে সেটাও বুঝতে পারে এই সফটওয়্যার। টিম ইঞ্জিনের সফটওয়্যার আর্কিটেক্ট মাসুদের নেতৃত্বে ফয়সাল, মোনা ও সাজ্জাদ এ সফটওয়্যার তৈরি করেছেন। এতে সাউন্ড ইঞ্জিনিয়ার হিসেবে কাজ করেছেন অয়ন মিজান। উপদেষ্টা হিসেবে আছেন রুহুল আমিন সজীব ও আশিকুর রহমান অমিত।