太清博客
182月/’102

藏文编码思考

Unicode的藏文编码,支持藏文、宗喀文(不丹语言“宗卡”)、锡金文、拉达克文、巴尔蒂文等。总体来说非常优秀。但是,一套编码的制定,要权衡各种力量:传统、政府、党派、宗教、专家等等。也受当时的技术和参与者的理解的局限。

我认为Unicode的藏文编码最优秀的地方就是对堆叠字母的处理:字母只分两种,基本字母和下接字母。不然,按照传统的做法,要么给每种可能的组合(字丁)一个编码1,要么非常复杂的区分基字、上加字、下加字2,事情就太复杂了。

1 加上不可能的组合也需要编码,藏文编码就会变得像谚文(朝鲜字/韩字)一样。Unicode编码很快就像IPv4一样不够用了。

2 写在上面的字母可能是基字,也可能是上加字;写在下面的字母可能是基字,也可能是下加字。算上外来词,那就更复杂了。按照这种思路:s.g 如果是上加字 s 和基字 g,你如果拼成基字 s 和下加字 g,看起来一样,但是错了。但是如果有个借词,那就可能是基字 s 和下加字 g。两种组合视觉上没有区别,但是编码不同。还要区分半 r,全 r 等。如果这样的话,不会藏文的拼字规则,就完全没办法用藏文的Unicode编码;世界上也会充满看起来没问题,但是实际是拼写错误的藏文。

再说缺点:

1. 符号部分排列比较混乱,说明准备不足。经多次补充,虽有预留空间,但是导致符号整体排列混乱。一些常见符号没有加入,而一些罕见符号却加入了。

2. 可组合字符设立了独立的编码。比如“” 为了对应其他文字,如天城文“”,而设置了独立编码,但是这个符号在藏文中完全可以使用组合代替。还有“”和“”。字母中为了对应其他文字,也有大量组合字母,如辅音“གྷ”,元音“ཱི”。这些字母,我认为不需编码。当然,编码后不用,也没问题。

3. 减半数字,一直没有官方说明。(是不是现在根本就不用?应该只是历史特定时期曾经使用。)

4. 符号“༄༅”在藏文中是两个字符,符号“࿓࿔”也是两个字符,加在一起是4个字符。可是在蒙古文编码中,以上两个符号只是一个字符的两个变体。

5. 堆叠字母可以更近一步简化:字母只有一种,叫基本字母。但是创建几个变形符号,比如:

变形符号1:使前一个字母变成下接字母。

变形符号2:强制使前一个字母变成全形。可以和变形符号1共用。

【变形符号3:使前一个字母变成反写字母。这个倒不必要。】

现有编码不需更改,多出来的字符作为冗余字符,不使用。但实际使用字符数量大量减少,使用难度也降低很多。

藏文字符表 Unicode.org chart (PDF)


发表评论

Time limit is exhausted. Please reload the CAPTCHA.