சமஸ்கிருதம் கம்ப்யூட்டர் கோடிங் செய்ய ஏற்ற மொழி என்பது எந்த அளவு உண்மை?

பட மூலாதாரம், metamorworks via getty images
- எழுதியவர், விக்னேஷ்.அ
- பதவி, பிபிசி தமிழ்
(இணையதளத்திலும் சமூக ஊடகங்களிலும் பல தவறான கூற்றுகள், அறிவியல் ரீதியிலான காரணங்கள் எனும் பெயரில் உலா வருகின்றன. அவற்றில் சிலவற்றுக்கான உண்மையான காரணங்கள் என்ன என்பதை விளக்கி "Myth Buster" எனும் பெயரில், பிபிசி தமிழ் தொடராக வெளியிட்டது. அந்தத் தொடரின் மூன்றாம் பாகம் இது.)
கணிப்பொறி அறிவியல் அல்லது பொறியியலை பள்ளியிலோ கல்லூரியிலோ பாடமாகப் படித்தவர்கள் மட்டுமே கணினியைக் கையாள முடியும் எனும் நிலையும் சமீப ஆண்டுகளில் மாறியுள்ளது.
கணிப்பொறிகளைக் கையாள்வது பற்றிய அறிவு பரவப் பரவ, அது பற்றிய உறுதிப்படுத்தப்படாத தகவல்கள் பலவும் பரவத் தொடங்கின.
அவற்றுள் மிகவும் பிரபலமான புரளி சமஸ்கிருதம்தான் கணிப்பொறிக்கு ஏற்ற மொழி என்பது.
மென்பொருட்கள் கணினிக்காக உருவாக்கப்பட்ட நிரல் மொழிகளின் (programming languages) குறியீடுகள் மூலமே உருவாக்கப்படுகின்றன எனும்போதும், சமஸ்கிருதம் கணிப்பொறிக்கு ஏற்ற மொழி என்பது சமூக ஊடகங்கள் வலுப்பெற்ற காலத்துக்கு முன்னும் பின்னும் தொடர்ந்து பரப்பப்பட்டு வருகிறது.
ஆனால், சமஸ்கிருத மொழியின் குறியீடுகள் மூலம் உருவாக்கப்பட்ட மென்பொருள் என்றோ, சமஸ்கிருதச் சொற்களைக் கொண்டு மென்பொருட்கள் நிரல் செய்யப்படுவதற்கான வழிமுறை என்னவென்றோ இதுவரை யாரும் தெளிவுபடுத்தவில்லை.
நிரல் மொழிகளுக்கு பதிலாக சமஸ்கிருதம் மூலமாகவோ, வேறு ஏதேனும் மொழிகளின் மூலமாகவோ மென்பொருட்களை உருவாக்க முடியும் என்பது இதுவரை சாத்தியப்படவில்லை.
இந்தப் புரளி எப்படித் தொடங்கியது?
1985இல் வெளியான AI Magazine எனும் செயற்கை நுண்ணறிவு குறித்த சஞ்சிகையில், அமெரிக்காவில் உள்ள ரிசர்ச் இன்ஸ்டிட்யூட் ஃபார் அட்வான்ஸ்டு கம்ப்யூட்டர் சயின்ஸ் (Research Institute for Advanced Computer Science) எனும் நிறுவனத்தைச் சேர்ந்த ரிக் ப்ரிக்ஸ், 'சமஸ்கிருதம் மற்றும் செயற்கை நுண்ணறிவில் அறிவை வெளிப்படுத்துதல்' (Knowledge Representation in Sanskrit and Artificial Intelligence) எனும் ஆய்வுக் கட்டுரையை வெளியிட்டார்.
மனிதர்கள் பயன்படுத்தும் வாக்கியக் கட்டமைப்புகளை உள்ளீடுகளாக கணினியில் செலுத்தினால் அதை அவ்வாறாகவே புரிந்துகொள்ளும் செயற்கை நுண்ணறிவுக்கு ஏற்ற மொழி குறித்து அந்தக் கட்டுரையில் அவர் விவரித்துள்ளார்.
உதாரணமாக 'ஆசிய கண்டத்தில் எத்தனை நாடுகள் உள்ளன?' என்ற கேள்வியை நீங்கள் கணினியிடம் கேட்டால், அதைப் புரிந்துகொண்டு, அதற்கான பதிலை கணினி உங்களுக்கு வழங்க ஏற்ற மொழி உள்ளதா என்பதே அதன் சாராம்சம்.

பட மூலாதாரம், Getty Images
"கணினி புரிந்துகொள்ளும் வகையில் வாக்கியக் கட்டமைப்பை ஒன்றுக்கும் மேற்பட்ட மொழிகள் கொண்டுள்ளன. 1,000 ஆண்டுகளுக்கும் மேலான தொடர்ச்சியை உடைய சமஸ்கிருத மொழி அத்தகைய வாக்கியக் கட்டமைப்பை கொண்டுள்ளது," என்று ரிக் ப்ரிக்ஸ் குறிப்பிடுகிறார்.
இன்றைய நிலை என்ன?
ரிக் ப்ரிக்ஸ் இந்தக் கட்டுரையை எழுதிய ஆண்டு 1985. கூகுள், யாஹூ போன்ற தேடுபொறிகள் எதுவும் இணையத்தில் அறிமுகம் செய்யப்படாத காலம் அது.
ஆனால், இப்போது தமிழ், ஆங்கிலம், மலையாளம் என எந்த மொழியில் உள்ள வாக்கியத்தை உள்ளீடாகக் கொடுத்தாலும் அதைப் புரிந்துகொண்டு அதற்கு ஏற்ற வகையில் முடிவுகளை வழங்கும் அளவுக்கு தொழில்நுட்பம் வளர்ந்துள்ளது.
மனிதர்கள் பேசும் மொழிகளை அந்தக் கட்டமைப்பிலேயே (language syntax) செயற்கை நுண்ணறிவைக் கொண்டு கணினிகளால் புரிந்துகொள்ள முடியாது என்று கருதப்படுவது மொழியியல் மற்றும் செயற்கை நுண்ணறிவு ஆகிய துறைகளில் செய்யப்பட்டுள்ள பல ஆய்வுகளை புறந்தள்ளும் வகையில் அமைந்துள்ளன என்று தனது கட்டுரையில் ரிக் ப்ரிக்ஸ் விவரிக்கிறார்.
ஆனால், அவர் குறிப்பிட்டுள்ளபடி சமஸ்கிருதம் உள்ளிட்ட மொழிகளின் கட்டமைப்பு மட்டுமே செயற்கை நுண்ணறிவுக்கு ஏற்ற வகையில் இல்லை. எல்லா மொழிகளின் கட்டமைப்பையும் கணினிகள் தற்போது புரிந்து கொள்கின்றன.

உதாரணமாக 'ஜப்பானின் தலைநகரம் எது' அல்லது 'What is the capital of Japan' என்று எந்த மொழியில் நீங்கள் கூகுள், யாஹூ போன்ற தேடு பொறியில் தேடினாலும் டோக்கியோ நகரம் பற்றிய தகவல்கள் உங்கள் கணினியின் திரையில் பட்டியலிடப்படும். காரணம் இரு மொழிகளையும், அவற்றின் வாக்கியக் கட்டமைப்புகளையும் தேடு பொறிகள் புரிந்துகொள்ளும் அளவுக்கு தொழில்நுட்பம் வளர்ந்துள்ளது.
இப்போது மனிதர்களுடன் உரையாடும் அளவுக்கு திறன் உள்ள ரோபோக்கள் செயற்கை நுண்ணறிவுத் தொழில்நுட்பம் மூலம் உருவாக்கப்பட்டுள்ளன.
அந்த அடிப்படையில் பார்த்தாலும் மென்பொருட்களை உருவாக்க மட்டுமல்லாது, செயற்கை நுண்ணறிவுத் தொழில்நுட்பத்தின் வளர்ச்சியும் சமஸ்கிருதம் அல்லது வேறு எந்த ஒரு மொழியைச் சார்ந்தும் இல்லை என்றும், மனிதர்கள் பேசும் எந்த ஒரு மொழியையும் உள்ளீடாகக் கொடுத்து அதே மொழியில் கணினி அல்லது ரோபோ போன்ற இயந்திரத்திடம் இருந்து பதிலைப் பெரும் வகையில் நிரல்மொழிக் குறியீடுகள் மூலம் செய்ய முடியும் என்பதும் தெளிவாகிறது.
மனித மொழி - இயந்திர மொழி
கையாள்பவர் பிறப்பிக்கும் உத்தரவுகளை கணினி நிறைவேற்றச் செய்யும் மென்பொருட்களை உருவாக்க நிரல்மொழிக் (programming language) குறியீடுகள் (coding) பயன்படுத்தப்படுகின்றன.
இந்த நிரல் மொழிகள் பெரும்பாலும் ஆங்கிலச் சொற்களைக் கொண்டு உருவாக்கப்பட்டுள்ளன எனும்போதிலும், தமிழ், வங்கம் போன்ற வேறு மொழிகளிலும் உருவாக்கப்பட்டுள்ளன.
உதாரணமாக C அல்லது C++ போன்ற நிரல் மொழிகளில் 'Print' என்று வழங்கப்படும் கட்டளை, 'எழில்' என்ற பெயரில் தமிழில் உருவாக்கப்பட்டுள்ள நிரல் மொழியில் 'பதிப்பி' என்று வழங்கப்படுகிறது.
நிரல்மொழிக் குறியீடுகள் மனிதர்கள் பேசும் எந்த மொழியில் இருந்தாலும் அந்தக் குறியீடுகள் பணிக்கும் வேலையைப் புரிந்துகொண்டு அவற்றைக் கணினிகள் மற்றும் கணினியுடன் இணைக்கப்பட்ட இயந்திரங்கள் நிறைவேற்றியே வருகின்றன.

பட மூலாதாரம், Getty Images
ஆங்கிலம் தவிர்த்த மொழிகளில் கணிப்பொறி ஆராய்ச்சி அதிவேகத்தில் நடந்து, அதே வேகத்தில் பயன்பாட்டில் மாற்றங்களும் நடந்துவரும் சூழலில் உலகில் எழுத்து வடிவம் உள்ள அனைத்து மொழிகளிலும் நிரல்மொழிகள் உருவாக்கப்படவில்லை என்றாலும் பெரும்பான்மையாக தொழில்நுட்பப் புழக்கத்தில் இருக்கும் மொழிகளில் கணினிகளுக்கான நிரல் மொழிகள் எதிர்வரும் ஆண்டுகளில் உருவாக வாய்ப்புண்டு.
அது நிகழும்போது கணினிக்கு ஏற்ற மொழி என்ற குறிப்பிட்ட ஒரு மொழி இருக்காது.
நிரல்மொழிக் குறியீடுகளை கணினி இயந்திர மொழியாக மாற்றி (machine language), எந்தச் செயலைச் செய்யுமாறு பணிக்கப்படுகிறதோ அதைக் கணினி செய்கிறது.
அது கூகுளில் எதையாவது தேடுவதாக இருக்கலாம், கூட்டல் கணக்குக்கு விடை சொல்வதாக இருக்கலாம், உங்களுக்குப் பிடித்த பாடலை இசைக்கச் செய்வதாகவும் இருக்கலாம்.
இந்தக் கட்டளைகளை கணினிக்கு புரிந்துகொள்ள வைக்க நிரல் மொழிகளால் மட்டுமே முடியும். கணினி அல்லது ரோபோ போன்ற வேறு இயந்திரம் எதையும் மனிதர்கள் பேசும் மொழிகளைப் பேசவோ, எழுதவோ வைக்க வேண்டுமானாலும் நிரல்மொழிகளே தேவை.
ஆங்கிலம், தமிழ், சமஸ்கிருதம், மாண்டரின் என மனிதர்கள் பேசும் மொழிகளின் சொற்களைக் கொண்டு நிரல் மொழிக் குறியீடுகள் உருவாக்கப்படாவிட்டால் எவ்வளவு இனிமையான, கவித்துவமான மனித மொழியில் சொன்னாலும் அது இயந்திரத்துக்குப் புரியாது.
சமூக ஊடகங்களில் பிபிசி தமிழ்:












