செவ்வாய், 31 ஜனவரி, 2012

தமிழ் எழுத்துரு தகுதரம்

1997 வாக்கில் டிஸ்கி என்று தமிழ் எழுத்துருக்களில் இட அமைவை வெளிநாட்டுத் தமிழர்கள் உருவாக்கியிருந்தார்கள். அப்போது இருந்த 8 பிட் எழுத்து அமைப்பு முறையில் மொத்தம் 256 இடங்கள்தான். முதல் 7 பிட்டுகளுக்கான 128 இடங்கள் அஸ்கி எனப்படும் அமெரிக்க எழுத்துக்களுக்கு ஒதுக்கப்பட்டிருந்தன. மற்ற மொழிகள் ஒவ்வொன்றும் அடுத்த 128 இடங்களில் தமது எழுத்துக்களை பொருத்திக் கொள்ள முடியும். தமிழ் எழுத்துக்களை அப்படி மேல் 128 இடங்களில் பொருத்தியது tscii என்ற டிஸ்கி தகுதரம்.

அதை ஏற்றுக் கொள்ளாமல் 1999 மாநாட்டில் tab, tam என்று இரண்டு தகுதரங்களை அறிவித்தார்கள். டேப் என்பது தமிழ், ஆங்கிலம் இரண்டையும் ஒரே எழுத்துருவில் அடிக்க வேண்டி உருவானது. 128 இடங்களில் அஸ்கியும் அடுத்த 128 இடங்களில் தமிழ் எழுத்துக்களுக்கான ஒதுக்கீடும். இதற்கும் டிஸ்கிக்கும் தொடர்பே இல்லாமல் இருந்தது. டேம் என்பது 256 இடங்களையும் தமிழ் எழுத்துக்களுக்காக பயன்படுத்துவது. டேம் மூலம் தமிழ் அச்சுத் துறைக்கான எழுத்துக்கள் அனைத்தும் சேர்க்கப்பட்டிருந்தன.

ஒவ்வொரு பிட் அதிகரிக்கும் போது எழுத்துக்களுக்கான இடம் இரண்டு மடங்காகும்.
2 பிட் - 4 இடங்கள்
3 பிட் - 8 இடங்கள்
4 பிட் - 16 இடங்கள்
5 பிட் - 32 இடங்கள்
6 பிட் - 64 இடங்கள்
7 பிட் - 128 இடங்கள்
8 பிட் - 256 இடங்கள்

8 பிட் முறையிலான டிஸ்கி, டேப் அல்லது பிற மொழிகளுக்கான அமைப்பில் இருந்த மிகப்பெரிய சிக்கல் அவற்றை பல மொழிகளுக்கு ஒரே நேரத்தில் பயன்படுத்த முடியாது என்பதுதான். உதாரணமாக தமிழ் எழுத்துருவில் 142வது இடம் க என்ற எழுத்துக்கு ஒதுக்கப்பட்டிருக்கும். அதே இடம் இந்தியில் இந்தி கவுக்கு ஒதுக்கப்பட்டிருக்கும். இதனால் ஒரே எழுத்துருவைப் பயன்படுத்தி பல மொழிகளை எழுத முடியாமல் இருந்தது.

டிஸ்கி உருவாக்கிப் பயன்படுத்திக் கொண்டிருந்த வெளிநாட்டுத் தமிழர்களின் முகாமில் நான் இருந்தேன். இந்த புதிய தகுதரங்களுக்கு முன்பாகவே நாங்கள் டிஸ்கியின் அடிப்படையில் அமைந்த எழுத்துருக்களையும், விசைப்பலகை இயக்கிகளையும் பயன்படுத்திக் கொண்டிருந்தோம். தமிழ்நாட்டு கணினி அறிஞர்கள் வேண்டுமென்றே இந்த பயன்பாட்டை புறக்கணித்து விட்டார்கள் என்று நீண்ட விவாதங்கள் நடந்தன. இணையத்தில் நடந்த விவாதங்களில் இயல்பாகவே டிஸ்கிக்கு ஆதரவு அதிகமாக இருந்தது. கடைசி வரை நான் டிஸ்கி எழுத்துக்களைத்தான் பயன்படுத்திக் கொண்டிருந்தேன். டேப் எழுத்துருக்கள் தமிழ் இணையதளங்களை சிலவற்றைப் பயன்படுத்த மட்டுமே நிறுவிக் கொண்டேன்.

இந்த சச்சரவுக்கு வெளியிலிருந்து முற்றிலும் வேறுபட்ட தீர்வு/முடிவு வந்தது. இஸ்கி என்று இந்திய மொழிகளுக்கான தகுதரம் ஒன்று இந்தி மொழியின் அடிப்படையில் எல்லா இந்திய மொழிகளுக்கும் உருவாக்கப்பட்டிருந்தது. யூனிகோட் உருவாக்கப்பட்ட போது மத்தியிலிருந்து இந்திய மொழிகளுக்கு அந்த ஒதுக்கீட்டை அனுப்பி விட்டார்கள். டேப், டிஸ்கி என்று அடித்துக் கொண்டிருந்த தமிழ்ச்சூழல் அதில் கவனம் செலுத்தவேவில்லை. யூனிகோட் தகுதரம் முடிவு செய்யப்பட்டு அறிவிக்கப்பட்ட பிறகுதான் விழித்துக் கொண்டார்கள்.

யூனிகோட் என்பது 16 பிட் என்கோடிங்.
16 பிட் எழுத்துருவில்
9 பிட் - 512 இடங்கள்
10 பிட் - 1024 இடங்கள்
11 பிட் - 2048 இடங்கள்
12 பிட் - 4096 இடங்கள்
13 பிட் - 8192 இடங்கள்
14 பிட் - 16384 இடங்கள்
15 பிட் - 32768 இடங்கள்
16 பிட் - 65536 இடங்கள்

இது மிகவும் எளிமைப்படுத்தப்பட்ட விளக்கம். முழு விபரங்களையும் இங்கு பார்த்துக் கொள்ளலாம். http://en.wikipedia.org/wiki/Unicode

இந்த இடங்கள் உலகின் எல்லா மொழிகளுக்கும் ஒதுக்கப்பட்டன. ஒரு மொழிக்கான இடத்தில் இன்னொரு மொழிக்கான எழுத்துக்கள் தலையிடுவதில்லை. அதனால் கணினியின் ஒரே ஆவணத்தில் எல்லா மொழிகளையும் எழுதுவதற்கான சாத்தியம் ஏற்படுத்தப்பட்டது. யூனிகோடை பெரிய மென்பொருள் நிறுவனங்கள் உடனடியாக ஏற்றுக் கொண்டன. விண்டோஸ் எக்ஸ்பி வெளியீட்டில் தமிழுக்கான யூனிகோடு ஆதரவு முழுமையாக இருந்தது. லதா என்ற எழுத்துருவையும் மைக்ரோசாப்டு உருவாக்கியிருந்தது.

அது வரை உருவாக்கியிருந்த டிஸ்கி, டேப் எழுத்துருக்கள் சீக்கிரமே வழக்கு ஒழிந்து அல்லது குறைந்து போயின. இப்போது இணையத்தில் பார்த்தால் கிட்டத்தட்ட எல்லா தமிழ் இணைய தளங்களும் ஒருங்குறி எனப்படும் யூனிகோடு தகுதரத்தில்தான் எழுத்துக்களை காண்பிக்கின்றன. மதுரைத் திட்டம் தளத்துக்குப் போனால், ஆரம்ப கால புத்தகங்களை டிஸ்கி எழுத்துரு வடிவத்தில் பெற்றுக் கொள்ள முடியும். சுஜாதாவின் வழிகாட்டலில் ஆரம்பித்திருந்த அம்பலம் மின் பத்திரிகையில் டேப் எழுத்துக்கள் பயன்பட்டன.

டேப், டிஸ்கி எழுத்துருக்கள் அடிப்படையிலான மோதல்கள் நெருங்கிய நண்பர்களுக்கிடையே கூட இருந்தது. அது பெரும்பாலும் தமிழ்நாட்டில் வாழ்ந்த கணினியாளர்களுக்கும் இணையத்தில் செயல்பட ஆரம்பித்திருந்த சிங்கப்பூர், மலேசியா, அமெரிக்கா வாழும் தமிழ் கணினியாளர்களுக்கும் இடையிலானதாகவே இருந்தது. இந்த போட்டியும், சச்சரவும் தமிழ்க் கணிமைக்கு பெருமளவு பின்னடைவைக் கொடுத்ததோடு மட்டுமில்லாமல், யூனிகோடு தகுதரத்தில் தமிழின் இயல்புக்கு முற்றிலும் பொருந்தாத இந்தி எழுத்துக்களின் அடிப்படையிலான ஒதுக்கீட்டுக்கு வழி வகுத்தது. அந்தச் சுமையை தமிழ் இன்று வரை சுமந்து கொண்டுதான் இருக்கிறது. இன்னும் கண்ணுக்கெட்டும் தூரம் வரை அதை சுமக்க வேண்டியிருக்கிறது என்பதுதான் நிதர்சனம்.

அது என்ன சுமை?

தமிழில் மொத்தம் 247 எழுத்துக்கள் என்று நமக்கெல்லாம் தெரியும். மற்ற குறியூடுகளுக்கும் சேர்த்து 256 இடங்கள் வாங்கியிருந்தால் தமிழ் எழுத்துக்கள் அனைத்தையும் பொருத்திக்கொண்டிருக்கலாம். முதலாவதாக தமிழ் மொழிக்கு 128 இடங்கள்தான் ஒதுக்கப்பட்டது. அதனால் உயிர் எழுத்து 12, மெய்யெழுத்து 18 இடம் ஒதுக்கினார்கள். உயிர்மெய் எழுத்துக்களை கூட்டெழுத்துக்களாக எழுத்துருக்கள் கையாள வேண்டும். இரண்டாவதாக, இப்படிப்பட்ட கூடுதல் சுமையிலும் ஒதுக்கீட்டை இந்தி எழுத்துக்களின் அடிப்படையில் அமைத்திருந்தார்கள். இந்தியில் க உச்சரிப்புக்கு 4 எழுத்துக்கள் இருந்தன. தமிழ் க வை இந்தி க இருக்கும் இடத்தில் வைத்து விட்டு அடுத்த 3 இடங்களை காலியாக விட்டு வைத்தார்கள். (http://unicode.org/charts/PDF/U0B80.pdf)

இப்படி தமிழுக்கு முற்றிலும் பொருத்தமற்ற ஒரு ஒதுக்கீட்டை செய்திருந்தார்கள். இதை சரி செய்வது என்பது இப்போதைக்கு சாத்தியமில்லைதான். இதற்குள் நூற்றுக்கணக்கான பயன்பாடுகள், ஆயிரக்கணக்கான எழுத்துருக்கள், லட்சக்கணக்கான இணைய தளங்கள், கோடிக்கணக்கான ஆவணங்கள் ஒருங்குறி முறையில் உருவாகியிருக்கின்றன. இவற்றை எல்லாம் மாற்றும் முயற்சி, நாள் போகப் போக கடினமாகிக் கொண்டேதான் போகும்.
இதைப்பற்றிய விவாதங்களின் இரண்டு பக்கங்கள்
http://www.kanithamizh.in/unicode-il-tamil.htm (யூனிகோடு ஒதுக்கீட்டை குறை சொல்லி)
http://ezilnila.com/archives/769 (யூனிகோடு ஒதுக்கீட்டை ஆதரித்து)

யூனிகோடுக்கு அடுத்த தகுதரம் உருவாக்கப்படும் போது உறுதியாக தமிழுக்கான தனித்தன்மையான ஒதுக்கீடு கோரப்படுவது ஒரு வழி.