藏文编码思考

Unicode的藏文编码，支持藏文、宗喀文（不丹语言“宗卡”）、锡金文、拉达克文、巴尔蒂文等。总体来说非常优秀。但是，一套编码的制定，要权衡各种力量：传统、政府、党派、宗教、专家等等。也受当时的技术和参与者的理解的局限。

我认为Unicode的藏文编码最优秀的地方就是对堆叠字母的处理：字母只分两种，基本字母和下接字母。不然，按照传统的做法，要么给每种可能的组合（字丁）一个编码¹，要么非常复杂的区分基字、上加字、下加字²，事情就太复杂了。

¹ 加上不可能的组合也需要编码，藏文编码就会变得像谚文（朝鲜字/韩字）一样。Unicode编码很快就像IPv4一样不够用了。

² 写在上面的字母可能是基字，也可能是上加字；写在下面的字母可能是基字，也可能是下加字。算上外来词，那就更复杂了。按照这种思路：s.g 如果是上加字 s 和基字 g，你如果拼成基字 s 和下加字 g，看起来一样，但是错了。但是如果有个借词，那就可能是基字 s 和下加字 g。两种组合视觉上没有区别，但是编码不同。还要区分半 r，全 r 等。如果这样的话，不会藏文的拼字规则，就完全没办法用藏文的Unicode编码；世界上也会充满看起来没问题，但是实际是拼写错误的藏文。

再说缺点：

1. 符号部分排列比较混乱，说明准备不足。经多次补充，虽有预留空间，但是导致符号整体排列混乱。一些常见符号没有加入，而一些罕见符号却加入了。

2. 可组合字符设立了独立的编码。比如“ༀ” 为了对应其他文字，如天城文“ॐ”，而设置了独立编码，但是这个符号在藏文中完全可以使用组合代替。还有“༂”和“༃”。字母中为了对应其他文字，也有大量组合字母，如辅音“གྷ”，元音“ཱི”。这些字母，我认为不需编码。当然，编码后不用，也没问题。

3. 减半数字，一直没有官方说明。（是不是现在根本就不用？应该只是历史特定时期曾经使用。）

4. 符号“༄༅”在藏文中是两个字符，符号“࿓࿔”也是两个字符，加在一起是4个字符。可是在蒙古文编码中，以上两个符号只是一个字符的两个变体。

5. 堆叠字母可以更近一步简化：字母只有一种，叫基本字母。但是创建几个变形符号，比如：

变形符号1：使前一个字母变成下接字母。

变形符号2：强制使前一个字母变成全形。可以和变形符号1共用。

【变形符号3：使前一个字母变成反写字母。这个倒不必要。】

现有编码不需更改，多出来的字符作为冗余字符，不使用。但实际使用字符数量大量减少，使用难度也降低很多。

藏文字符表 Unicode.org chart (PDF)

太清博客

语言文字研究

《藏文编码思考》上有2个想法

发表评论取消回复

《藏文编码思考》上有2个想法

发表评论 取消回复

发表评论取消回复