中文的复杂和丰富本来是我们文化的优势和骄傲,不过在AI学习的过程中去有了障碍。机器学中文有四重难,第一重难度是语速太多,现在的简体中文被认为是一种语速文字,有的地方也说成表意文字,语速就是最小语义单位,简单说主要就是字,还有一些不能拆分的词。 这导致汉语的基本单元有成千上万个,比如表达马的字有十多个之多,反正不就是一个马吗?这让AI选择的时候就有了麻烦。英文是一种表音文字,对应来说就是音素文字,只有48个音素,最小单元比汉语更少,这意味着中文训练的数据标记难度更大。 第二重难度没有空格。中文打字的时候除了标点符号之外,大部分字与词之间没有空格,机器不知道词与从哪开始,从哪结束。 第三重难度,多音字、同音字太多。因为汉字有四个音调,同音字很多,这样语音识别更难。
第四重难度,语法天马行空,现在全世界的语言都在分析语的道路上发展,也就是把简单语速。通过语法来回排列来表达复杂的意思,这是一个语言简单高效的特征。汉语变成白话,其实就已经分析化了,用有限的字通过语法构成无限的意思还好学易懂,放弃了为每个意思造一个新字的做法,所以常用汉字就剩两三千个,康熙字典里面的好几万个字就自动淘汰了,这是进化而不是退化,这让我们民族的教育程度大幅度提高。 汉语的简体化和白化并不是100%的,目前的状态实际上是古今混合。比如大量的成语就不太分析语化,像蝇营狗苟,意思很清楚但语法何在?AI无法通过一般的语法解剖思维去理解,只能做整个的标注。 |