ভাষা ও প্রযুক্তি

ঋত্বিক মল্লিক

ভরপুর পরীক্ষা আর খাতা দেখার মরশুমে মাঝেমধ্যেই উঁকি দিয়ে যায় নিজের ছোটবেলা। আর ছোটবেলা মানেই পরীক্ষার খাতায় অজস্র লাল দাগ। ভুলে ভরা জীবনের আগাম বার্তা নিয়ে এসেছিল সেইসব খাতার পাতা। বামপন্থী রাজত্বে জীবনের তিন দশকের বেশি কেটে গেলেও, যদি প্রশ্ন করেন যে, লাল রং আমি সবচেয়ে বেশি আমি কোথায় দেখেছি, তাহলে সে-প্রশ্নের উত্তর হবে, ছাত্রজীবনে পরীক্ষার খাতায় আর পরবর্তী জীবনে রাস্তার সিগনালে। তবে এই দু’টি ক্ষেত্রই আজ অব্যর্থভাবে পরাজয়ের মুখে। সে পরাজয় লজ্জার— আর এই লজ্জাজনক পরাজয়ের সঙ্গে জড়িয়ে আছে আমার মাতৃভাষা।

কাগজে-কলমে লেখা ছেড়ে যবে থেকে ইউনিকোডে লেখা শুরু করেছি, তখন থেকে বাংলায় যা-ই লিখি, তার তলায় লাল দাগ পড়ে যায়। সবই যেন ভুল, গোটা ভাষাটাই যেন অবাঞ্ছিত, অকারণ আর তুচ্ছ। কিন্তু কেন এমন ঘটে? এর কারণ বাংলা কোনও মান্য স্পেলচেকার সেভাবে তৈরি করা যায়নি এখনও, ইংরেজি স্পেলচেকার চালু থাকলে তার কাছে স্বাভাবিকভাবেই বাংলার প্রতিটি শব্দই অচেনা ঠেকে, তাই সব লেখার নীচে পড়ে যায় লাল দাগ। এই ঘটনাটি আমরা অনেকেই জানি, কিন্তু নিজের মাতৃভাষার জন্য এইটুকু করে উঠতে পারিনি। ভাষাপ্রযুক্তির দিক থেকে এরকম অনেকগুলি ক্ষেত্রই আমরা সামনে আনতে পারি, যেখানে বাংলা ভাষার অবস্থা একেবারেই গৌরবজনক নয়। আন্তর্জাতিক মাতৃভাষা দিবস পেরিয়ে এসে এইবার একঝলক দেখে নেওয়া যাক, নতুন এই সময়ে বাংলা ভাষার অবস্থানকে।

আরও পড়ুন: ভাষা ভরে যায় কর্পোরেট বুদবুদে!
লিখছেন প্রহেলী ধর চৌধুরী…

তবে দু’টি কথা খুব স্পষ্ট করে বলে নেওয়া দরকার। এক, কোনও ভাষা কত প্রাচীন, তার ব্যাকরণ কত সুদৃঢ়, তার ভাষাতাত্ত্বিক ঐতিহ্য কত সমৃদ্ধ, তার সাহিত্য কত উন্নত, সে-ভাষায় অনুবাদক্ষেত্র কতদূর বিস্তৃত— এর কোনও মাপকাঠির ওপরেই কিন্তু ভাষাপ্রযুক্তির এই সাফল্য নির্ভর করে না। দুই, এখন ভাষা ব্যবহারের ক্ষেত্রে ভাষাপ্রযুক্তিকে কোনওভাবেই আর উপেক্ষা করার উপায় নেই, বরং ভাষার দৈনন্দিনতার সঙ্গে বা বলা ভাল, প্রতি মুহূর্তের সঙ্গে এখন ভাষাপ্রযুক্তির নিবিড় যোগ। একথা অনস্বীকার্য যে, আধুনিক মাধ্যম বলতে আমাদের কাছে সবচেয়ে গুরুত্বপূর্ণ, সহজলভ্য এবং কার্যকর দিক হল আন্তর্জাল। ২০১৫ সালে ভারতের প্রথম ‘পাবলিক অ্যাকসেসেবল ইন্টারনেট’ বা সাধারণের ব্যবহার্য আন্তর্জাল যেইমাত্র বাজারে এল, সেই মুহূর্ত থেকেই ক্রমশ ইন্টারনেট বদলে দিল ‘কমোডিটি’ বা পণ্য সম্পর্কে এতদিন যাবৎ তৈরি হয়ে আসা ধারণা। একুশ শতকের বাজার অর্থনীতিতে নাগরিকদের আয়ত্তে থাকা যে বস্তুটির দাম দিনের পর দিন ধরে কমছে, তা হল ইন্টারনেট। এখনও পর্যন্ত, একুশ শতকের প্রথম চব্বিশ বছরের হিসেবে, অর্থনীতিবিদরা একে বলছেন— ‘ইন্টারনেট রিভোলিউশন’। বস্তুত, ইন্টারনেট যে ঠিক কতটা গুরুত্বপূর্ণ আয়ুধ হয়ে উঠতে পারে, তা আমরা টের পেয়েছিলাম বিশ্বজোড়া কোভিড অতিমারীর সময় থেকেই। পঠনপাঠন, পেশাগত ক্ষেত্র, স্বাস্থ্যব্যবস্থা, ক্রয়বিক্রয়— সমস্ত কিছুই চলছিল প্রাথমিকভাবে ইন্টারনেটভিত্তিক পরিষেবার হাত ধরে। আর মুখ থুবড়ে পড়ছিল সেই সমস্ত কর্মজগৎ, যেখানে আন্তর্জাল ব্যবহার করে কাজ উতরে দেওয়ার সুবিধা নেই।

‘গ্লোবাল ডিজিটাল ইনসাইটস’-এর ডেটা রিপোর্টাল সমীক্ষা অনুযায়ী, ২০২৫ সালের জানুয়ারি মাস পর্যন্ত, ভারতে ইন্টারনেট ব্যবহারকারীর সংখ্যা ৮০.৬ কোটি, যা গোটা দেশের জনসংখ্যার প্রায় ছাপ্পান্ন শতাংশ এবং এই সংখ্যা কিন্তু প্রতিদিন বাড়ছে। শুধু পশ্চিমবঙ্গের নিরিখে এই সংখ্যাটা ছ’কোটিরও বেশি।

কিন্তু, প্রতি দু’জন পিছু এই যে একজন নাগরিক ইন্টারনেট ব্যবহার করেন, সেক্ষেত্রেও মুখ্য মাধ্যম ভাষা। ইন্টারনেটে কোনওকিছু খুঁজে নেওয়ার প্রাথমিক শর্তই হল যথাযথ কি-ওয়ার্ড, বা চাবিশব্দ প্রয়োগ করে কাঙ্ক্ষিত সন্ধানের বস্তুটির খোঁজ করা। এই সন্ধানের পথে, যে ইন্টারনেট ব্যবহারকারীর প্রযুক্ত চাবিশব্দ যত বেশি মোক্ষম বা যথাযথ হবে, তাঁর সন্ধানের ফলাফলও তত নিখুঁত হবে। আবার, এর একটা উল্টোদিকও রয়েছে, ইন্টারনেট ব্যবহারকারী যত যথার্থ চাবিশব্দই প্রয়োগ করুন না কেন, তিনি যা খুঁজছেন, সেই বস্তুটি ইতিমধ্যেই আন্তর্জালের দুনিয়ায় কোনও-না-কোনওভাবে ‘প্রি-রেকর্ডেড’ যদি না হয়, তাহলে হাজার অনুসন্ধানেও তাঁকে কিন্তু শূন্য ঝুলি নিয়েই ফিরতে হবে। অর্থাৎ, ইন্টারনেট ব্যবহার করে কাঙ্ক্ষিত সন্ধানের উত্তর পেতে গেলে সার্থক চাবিশব্দ দেওয়াটা যেমন জরুরি, তেমনই আবার তাঁর সন্ধানের ফল মিলতে পারে, এমন উপযোগী তথ্যসম্ভারও সেখানে থাকা অত্যাবশ্যক।

আর ঠিক এই জায়গাটাতেই এসে পড়ে ‘corpus’ বা ভাষানমুনার প্রসঙ্গ। যে ভাষার নমুনা বা ‘corpus’ ইন্টারনেটে যত বেশি, আজকের যুগে দাঁড়িয়ে, সেই ভাষাই কাজের নিরিখে তত সফল ভাষা। যে-ভাষাকে ইন্টারনেটে ব্যবহার করার জন্য যত বেশি কাজে লাগানো হয়, স্বাভাবিকভাবেই তার ভাষানমুনা বা ‘করপাস’ হবে তত বড় এবং যে ভাষার করপাস যত বড়, সংখ্যাতাত্ত্বিক হিসেবে তাকে আন্তর্জালিক মাধ্যমে তত সম্ভাবনাময়, সফল এবং শক্তিশালী ভাষা হিসেবে জায়গা দিতে হবে।

এখানে দু’টি পরিসংখ্যান পাশাপাশি রাখা যাক। প্রথমটি হল, বাংলা ভাষার ভাষিক পরিসংখ্যান। বাংলা পৃথিবীর সপ্তম বৃহত্তম বলার ভাষা, ভারতের মধ্যে দ্বিতীয় বৃহত্তম। পৃথিবী জুড়ে ২৩ কোটি মানুষ এই ভাষায় কথা বলেন, যার মধ্যে শুধু ভারতেই আছেন ন’কোটি। এইসব কথাই আমরা বলে চলেছি বছরের পর বছর। এই ভাবের ঘরে চুরি না করে এখন এই নতুন আধুনিকতার বিচারে যদি আমাদের বাংলা ভাষার অবস্থান আমরা দেখি, তাহলে দেখব বাংলার মোট ভাষানমুনার পরিমাণ গোটা ইন্টারনেটে ০.১ শতাংশ, যেখানে ইংরেজি একাই দখল করে আছে ৬০.৪ শতাংশ। এশিয়ার ভাষাগুলোর মধ্যে চিনা, জাপানি এবং কোরিয়ান ভাষার ওয়েবসাইটের সংখ্যা সবচেয়ে বেশি।

ইন্টারনেটে ইংরেজির সবচেয়ে বড় করপাসটি হল অক্সফোর্ড ইংলিশ করপাস, ২০২১ সালে যার শব্দসংখ্যা ২১০ কোটি। বাংলা ভাষার যে ক’টি কর্পোরা এই মুহূর্তে ইন্টারেনেটে রয়েছে, তার মধ্যে সবচেয়ে বেশি ভাষানমুনার সংগ্রহ রয়েছে যে করপাসটির অধীনে, তা bnTenTen। এই bnTenTen করপাসে বাংলার মোট গৃহীত শব্দসংখ্যা ৪৭ কোটি। অথচ, এত বড় করপাসটি থাকা সত্ত্বেও বাংলার ভাষানমুনার পরিমাণে এই ভয়ংকর দারিদ্র্য সত্যিই আশ্চর্য করে।

এই দুরবস্থার মূল কারণ একটাই। ভাষাসচেতন বাংলাভাষীদের সঙ্গে প্রযুক্তির দুনিয়ার একটা অনাবশ্যক দূরত্ব। প্রযুক্তি-সচেতন বাঙালির একটা বড় অংশ ভাষার ভবিষ্যৎ এবং ভাষার প্রসার নিয়ে বিন্দুমাত্র যত্নশীল নন, তাঁরা বাংলাকে ঘরের মধ্যে কথাবার্তা বলার মতো দু-চারটি ক্ষেত্রে প্রয়োগ করেই কাজ সারেন এবং ক্যাফে, রেস্তোরাঁ, বিপণি, অফিস, সভাঘর— সর্বত্রই তাঁদের ভাষাসংযোগের মূল কাজ চলে বিশ্বজনীন লিঙ্গুয়া ফ্রাঙ্কা ইংরেজি ভাষায়। ফলে, বাংলা ভাষায় তিনি ক্রোম বা ফায়ার ফক্স-এর মতো কোনও ওয়েব ব্রাউজার পাচ্ছেন কিনা, গুগল বা বিং-এর মতো কোনও সার্চ এঞ্জিন পাচ্ছেন কিনা, তাতে তাঁদের কিছুই যায় আসে না। আর অন্যদিকে, ভাষাসচেতন বাঙালিরা অনেকেই ভাষাপ্রযুক্তি সম্পর্কে অনেকটাই বিমুখ আর কিছুটা নিরুত্তর। এই বিমুখতার কারণ একটা বড় অংশের বাঙালির ব্যাকরণভীতি এবং প্রযুক্তিভীতি। অথচ, খুব স্পষ্ট ব্যাকরণের ধারণা আর প্রযুক্তি নির্মাণের বোধ একজায়গায় এসে মিললে, তবেই এই সমস্যা কাটিয়ে ওঠা সম্ভব। আমাদের উচ্চশিক্ষাব্যবস্থাতেও ভাষা আর প্রযুক্তির এই দূরত্ব কাটিয়ে ওঠার সচেতন চেষ্টা পাঠক্রম বা পাঠ্যক্রম— কোথাওই অন্তর্ভুক্ত হয়নি।

***বাংলা ল্যাঙ্গুয়েজ মডেল ব্যবহারের দৃষ্টান্ত***

তবে, বাংলার ভাষাপ্রযুক্তিগত সম্ভাবনার দিকটি খতিয়ে দেখলে, যে-যে ক্ষেত্রগুলি নিয়ে কাজ করার অবকাশ রাখা খুব জরুরি, তাকে এই মুহূর্তে আমরা মোট চোদ্দটি দিক থেকে দেখতে পারি— বাংলা ভাষার করপাস নির্মাণ, বহুভাষিক কর্পোরায় বাংলার অন্তর্ভুক্তি, বাংলা ওসিআর বা স্বয়ংক্রিয় পাঠক, বাংলায় স্পিচ টু টেক্সট এবং টেক্সট টু স্পিচ ব্যবহার, কি-বোর্ডের আধুনিকায়ন, বাংলা লেখার সর্বসম্মত স্টাইলগাইড তৈরি, বাংলা বানান ও ব্যাকরণের আধুনিক রূপটিকে কাজে লাগিয়ে স্পেলচেকার এবং এডিটিং টুল নির্মাণ যাতে স্বয়ংক্রিয় সম্পাদনা-সহায়ক ব্যবহার করা যায়, বাংলা থেকে সহজ আইপিএ কনভার্টার তৈরি করা, বাংলায় যথাসম্ভব নির্ভুল মেশিন ট্রান্সলেটর নির্মাণ, বাংলা ফন্ট কনভার্টার, বাংলা ইউনিকোডের আধুনিকীকরণ, দৃষ্টি-প্রতিবন্ধীদের জন্য সাইন ল্যাংগুয়েজ টু টেক্সট অথবা সাইন ল্যাংগুয়েজ টু স্পিচ অর্থাৎ ইশারাভিত্তিক বুলি বা ইশারাভিত্তিক লিপিভাষা তৈরি করা— যার জন্য প্রয়োজন স্ক্রিনরিডার সফটওয়্যার গড়া, ঠিক এর বিপরীতে আবার শ্রবণ-প্রতিবন্ধীদের কথা মাথায় রেখে টেক্সট টু সাইন ল্যাংগুয়েজ সফটওয়্যার তৈরি এবং বাংলায় সেন্টিমেন্ট অ্যানালিসিস টুল তৈরি। এর প্রতিটি নিয়েই প্রচুর কাজের সম্ভাবনা রয়েছে, কিন্তু বাংলায় এই প্রয়োগ-সম্ভাবনা বোঝানোর জন্য আপাতত আমি এর শুধু একটি দিক বেছে নিচ্ছি আলোচনার জন্য, তা হল ‘করপাস’ নির্মাণ।

কারণ, যথেষ্ট পরিমাণ ভাষানমুনা বা করপাস তৈরি করা না গেলে, প্রযুক্তিক্ষেত্রে বাংলাকে নিয়ে অন্য কোনও কাজই করা সম্ভব নয়, ফলে যে-কোনও প্রযুক্তি-সহায়ক ভাষার ক্ষেত্রে এটা একেবারে গোড়ার কাজ।

বাংলা ভাষার করপাস নির্মাণ বা বহুভাষিক কর্পোরায় বাংলার অন্তর্ভুক্তির জন্য প্রয়োজন বিপুল পরিমাণে বাংলার ভাষানমুনা ইন্টারনেটের তথ্যজগতে ঢুকিয়ে ফেলা, যাকে আমরা বলতে পারি ‘ডেটা মাইনিং’। এই বাংলা কর্পোরা যদি আমরা তৈরি করতে পারি, তাহলে একে কাজে লাগিয়ে বয়স্ক এবং শিশুদের ভাষাশিক্ষা সম্ভব, ঐতিহাসিক ভাষাতত্ত্বের যান্ত্রিক বিশ্লেষণ সম্ভব, বিভিন্ন আঞ্চলিক ভাষারূপ-সংক্রান্ত তথ্য সংগ্রহ এবং তার পাশাপাশি ভাষার ওপরে সামাজিক ও সাংস্কৃতিক প্রভাব নির্ধারণ করা যেতে পারে, পৃথিবীর অন্যান্য বিবিধ ভাষার সঙ্গে বাংলা ভাষার ব্যাকরণগত এবং ব্যাবহারিক পার্থক্য নিরূপণ করা যাবে এবং অবশ্যই ভাষার এই এত বড় ডিজিটাল আর্কাইভকে কাজে লাগিয়ে খুব সহজে ভাষাশৈলীর বিশ্লেষণ করা যাবে।

যেমন ধরা যাক, রবীন্দ্রনাথের যাবতীয় সাহিত্যকীর্তিতে সবচেয়ে ব্যবহৃত শব্দ কোনটি? কিংবা জীবনানন্দের ‘রূপসী বাংলা’ কাব্যগ্রন্থের কবিতাগুলোতে আমরা যে এতসব মঙ্গলকাব্যের চরিত্রগুলোকে পাই, তার মধ্যে কার নাম সবচেয়ে বেশিবার এসেছে? অথবা, কোনও একটি শব্দের ব্যবহারগত প্রাচীনতা-নবীনতা নিয়ে আলোচনা করতে গেলেও এমন প্রশ্ন যদি ওঠে, যেমন, ‘ব্যাপক’ শব্দটা বাংলা লিখিত ডকুমেন্টের মধ্যে আমরা কবে থেকে পাচ্ছি কিংবা কোন সময়ের সাহিত্যনমুনায় শব্দটার ব্যবহার একেবারেই নেই? এই ধরনের যাবতীয় প্রশ্নের উত্তর আমাদের দিতে পারে করপাস নির্মাণের প্রচেষ্টা।

একটা উদাহরণ দিই। যদি প্রশ্ন করা যায়, লিখিত বাংলা ভাষায় সর্বাধিক ব্যবহৃত শব্দ কোনটা? প্রাথমিকভাবে মনে হতেই পারে, ‘করে’, ‘কেন’,‘আছে’, ‘এ’, ‘যে’— এই জাতীয় শব্দই হয়তো সবচেয়ে বেশি লেখা হয় বাংলায়। আবার একথাও অনস্বীকার্য নয় যে, বাংলায় এহেন একটি শব্দ বেছে নেওয়া বহু ক্ষেত্রেই খুব সমস্যাজনক। কারণ বাংলায় প্রত্যয়, বিভক্তি, উপসর্গের ব্যবহার খুব বেশি। ফলে অনেক শব্দই নিজেরা আলাদা-আলাদাভাবেও ব্যবহৃত হয়, আবার বিভিন্ন লেজুড়ের সঙ্গে জুড়ে বসে নতুন-নতুন চেহারা এবং নতুন-নতুন অর্থ নিয়ে এসে হাজির হয়। যেমন ধরা যাক, ‘ভাষা’ শব্দটি। এর সঙ্গে ‘ষ্ণিক’ (ইক) প্রত্যয় জুড়লে এর চেহারা দাঁড়ায় ‘ভাষিক’, এর সঙ্গে ‘য়’ বিভক্তি জুড়লে এর চেহারা হবে ‘ভাষায়’, ‘উপ’ উপসর্গ জুড়ে তৈরি হয় ‘উপভাষা’-র মতো শব্দ, আবার এর সঙ্গে ‘গত’ জাতীয় আস্ত শব্দ জুড়ে আমরা ‘ভাষাগত’-র মতো শব্দও তৈরি করে ফেলতে পারি। এখন ভেবে দেখুন, ‘ভাষা’, ‘ভাষিক’, ‘ভাষায়’, ‘উপভাষা’ কিংবা ‘ভাষাগত’— প্রত্যেকটি শব্দের তো অর্থ আলাদা, তাহলে এই প্রতি শব্দে যতবার ‘ভাষা’ শব্দটি আসবে, আমরা কি প্রত্যেকটিকে ‘ভাষা’ শব্দটিরই পুনরাবৃত্তি হিসেবে ধরব, না কি প্রতিটিকে স্বতন্ত্র উদাহরণ হিসেবে ধরব? এই ধরনের শব্দকে আমরা বলতে পারি ‘স্ফীত শব্দ’ বা ‘inflected words’। এভাবে অনেক শব্দই ফুলেফেঁপে ওঠে, বিশেষত বাংলায় যদি ক্রিয়াপদের কথা বলি, তাহলে একটি ক্রিয়ার মূলরূপ থেকে অন্তত পঞ্চাশ থেকে একশোটি পর্যন্ত ক্রিয়াপদ বা ক্রিয়াবাচক শব্দ তৈরি হতে পারে। এছাড়া বাংলায় নির্দেশকের ব্যবহারও খুব বেশি নয়, অন্তত ইংরেজির ‘a’, ‘an’, ‘the’-র মতো ব্যাকরণগতভাবে আবশ্যিক উপস্থিতি তাদের নেই। ফলে বাংলায় কোন শব্দটা যে বারবার ব্যবহৃত হচ্ছে, তা খোঁজার পদ্ধতি সোজা নয়। এর জন্য যন্ত্রগণকের সাহায্য ভীষণভাবে জরুরি। আর যথেষ্ট ভাষানমুনা যদি আমরা ইন্টারনেটের বাংলা কর্পোরায় রাখতে পারি, তাহলে বিপুল তথ্যভাণ্ডারের মধ্যে ঠিক কোন শব্দ কতবার আসছে, তা একলহমায় বের করে ফেলা যায়। ভাষাশৈলী সংক্রান্ত এবং ঐতিহাসিক ভাষাব্যবহার সংক্রান্ত যে-কোনও কাজের ক্ষেত্রে এটা ভীষণ জরুরি ধাপ।

যেমন ধরা যাক, রবীন্দ্রনাথের যাবতীয় সাহিত্যকীর্তিতে সবচেয়ে ব্যবহৃত শব্দ কোনটি? কিংবা জীবনানন্দের ‘রূপসী বাংলা’ কাব্যগ্রন্থের কবিতাগুলোতে আমরা যে এতসব মঙ্গলকাব্যের চরিত্রগুলোকে পাই, তার মধ্যে কার নাম সবচেয়ে বেশিবার এসেছে? অথবা, কোনও একটি শব্দের ব্যবহারগত প্রাচীনতা-নবীনতা নিয়ে আলোচনা করতে গেলেও এমন প্রশ্ন যদি ওঠে, যেমন, ‘ব্যাপক’ শব্দটা বাংলা লিখিত ডকুমেন্টের মধ্যে আমরা কবে থেকে পাচ্ছি কিংবা কোন সময়ের সাহিত্যনমুনায় শব্দটার ব্যবহার একেবারেই নেই? এই ধরনের যাবতীয় প্রশ্নের উত্তর আমাদের দিতে পারে করপাস নির্মাণের প্রচেষ্টা।

এর একটা প্রাথমিক কাজ শুরু হয়েছিল, ১৯৯১ সালে, ভুবনেশ্বরে। সেখানে বিপুল সংখ্যক বাংলা ভাষার নমুনা সংগ্রহ করে করপাস তৈরির একটা উদ্যোগ নেওয়া হয়। ঠিক করা হয়েছিল, প্রাথমিকভাবে ১৯৮১ সাল থেকে শুরু করে ১৯৯০ সাল পর্যন্ত সময়সীমার মধ্যে প্রকাশিত বাংলা বইপত্র থেকেই নমুনা নেওয়া হবে। একেবারে প্রাথমিক পর্যায়ে, এইভাবে মোট তিরিশ লক্ষ শব্দের একটি করপাস তৈরি করা হয়, সি-ড্যাকের GIST প্রযুক্তি ব্যবহার করে। আমরা যারা এই ধরনের করপাস গবেষণাক্ষেত্রে ব্যবহার করি, তাদের কাছে এর একটা প্রচলিত নাম হল DoE Corpus বা ‘ডিপেন্ডিং অন এক্সপিরিয়েন্স’ করপাস।

ইন্ডিয়ান স্ট্যাসটিকাল ইন্সটিটিউটে বিদ্যুৎবরণ চৌধুরীর তত্ত্বাবধানে এই ডিওই করপাসটি ব্যবহার করে প্রথম অনুসন্ধান চালানো হয়। তাঁর লেখা ‘ভাষা–প্রযুক্তির কয়েকটি’ বইয়ে এর চমৎকার বিবরণ পাওয়া যায়। লিখিত বাংলা ভাষায় সর্বাধিক ব্যবহৃত শব্দটির খোঁজ করতে গিয়ে দেখা যায়, বাংলার অন্যান্য সমস্ত শব্দকে পিছনে ফেলে দিয়ে যে-শব্দটি সর্বোচ্চ ব্যবহারের প্রথম স্থান অধিকার করেছে, সেটি হল ‘না’। তিরিশ লক্ষ শব্দনমুনার মধ্যে ‘না’ এসেছিল ৩২,৮৭৭ বার। ‘না’-এর পরের দ্বিতীয় মুকুট পেয়েছিল ‘করে’ শব্দটি, তার ‘রেকারিং অকারেন্স’ ছিল ২৮,২০১ বার।

এর মধ্যে যে বাক্যটিতে ‘না’-এর ব্যবহার ছিল সবচেয়ে বেশি, সেটি উদ্ধার করা হয়েছিল নবনীতা দেবসেনের ‘হে পূর্ণ, তব চরণের কাছে’ বইয়ের একটি লেখায়। সেখানে নবনীতা লিখছেন, ‘মনের মতো হয় না কোনো ক্লাশটাই, মন ভরে না কোনো লেখা লিখেই, কেন আমি কিছুই ধরে রাখতে পারি না, হাতে পেয়েও মুঠো বন্ধ করি না, ছেড়ে দিই, আঙুলের ফাঁক দিয়ে ঝরে যেতে দিই, ধরে রাখতে পারি না কিছুই, না বন্ধুত্ব, না প্রণয়, না সন্তান, না সংসার, না শিল্প, না কর্ম, না প্রতিষ্ঠা, না ধর্ম, না বোধ, না বোধি, কী চাই তাই-ই বুঝি না।’ এই পরিসংখ্যান দেখে উৎসাহিত হয়ে রবীন্দ্র রচনাবলিতে ‘না’-এর সংখ্যা খুঁজতে বসে দেখা গেল, রবীন্দ্রনাথের লেখায় ‘না’ এসেছে মোট ১১,৯০৩ বার, যার মধ্যে গীতাঞ্জলির মোট ১৫৭টি কবিতায় ‘না’-এর সংখ্যা ১৫৮টি। অর্থাৎ, গড়ে, প্রতি কবিতায় একটি ‘না’।

আমাদের মনের মধ্যে প্রযুক্তি-বিরোধিতা এতটাই প্রবল যে, এই ধরনের কাজ করাকে অপ্রয়োজনীয় এবং নিম্নমেধার অকারণ পরিশ্রম বলে মনে করেন অনেকে। কৃত্রিম বুদ্ধিমত্তা প্রয়োগ করে ভাষা শেখার যত আয়োজন, সেখানে বাংলা শেখার তেমন কোনও উপায় নেই। বিদেশি ভাষার শেখার জন্য এখন অনেকেই কোনও প্রতিষ্ঠান বা ব্যক্তির শরণাপন্ন না হয়ে হাতে তুলে নিচ্ছেন মোবাইল আর সেখানে হয়তো রাখা আছে ‘ডুয়োলিঙ্গ’-র মতো কোনও অ্যাপ। এই অ্যাপের মাধ্যমে ‘AI -First Strategy’ ব্যবহার করে শেখা যায় চল্লিশটারও বেশি ভাষা। পৃথিবীর সপ্তম বৃহত্তম ভাষা হলেও বাংলা শেখার কোনও সুযোগ কিন্তু সেখানে নেই। কারণ আমরা এই নিয়ে তেমন মাথা ঘামাইনি, বিশ্বাসই করিনি এর প্রয়োজনীয়তাকে। তবু বিচ্ছিন্নভাবে কিছু প্রচেষ্টা হয়তো চলছে, আর তার ফলে কিছু সুফলও আমরা পাচ্ছি। কিন্তু প্রয়োজনের তুলনায় আমার ভাষা দাঁড়িয়ে আছে অনেক পিছনে। এবারের মতো মাতৃভাষা দিবস চলে গেল গান গেয়ে, কবিতা বলে, নানা সভা-সমিতিতে ধীমান সব আলোচনা করে। এইসব থাকুক, কিন্তু এর পাশাপাশি একটাই কথা বলার— বাংলা ভাষায় ‘না’-এর সংখ্যা যতই বেশি হোক, ভাষাপ্রযুক্তির ক্ষেত্রে বাংলাকে যেন আর বেশিবার ‘না’ শুনতে না হয়।

এক ডাকে গোটা বিশ্ব

ভাষা ও প্রযুক্তি

আর্কাইভ

সম্পাদকীয়

Shubharambh: Part 14

টিনটিন-দুনিয়া

সাক্ষাৎকার: প্রদীপ মুখোপাধ্যায়

অলরাউন্ডার: পর্ব ৩

বিভাগ

সাম্প্রতিক লেখা

Quick Links

Useful Links

Social Links