2022,致力于做行业资讯、优秀的短信网站导航平台!
本站收录相关网址皆来源于网络,欢迎广大用户反馈问题网站,本站将第一时间清理!并且提醒大家!
手机短信验证码_语音验证码平台_接码网站-爱码网
当前位置: 首页 > 新闻快讯 >

令我们骄傲的中文却让AI犯了难

时间: 2023-08-30 08:35 来源: 未知 作者: 验证码小编 点击:
中文的复杂和丰富本来是我们文化的优势和骄傲,不过在AI学习的过程中去有了障碍。机器学中文有四重难,第一重难度是语速太多,现在的简体中文被认为是一种语速文字,有的地方

中文的复杂和丰富本来是我们文化的优势和骄傲,不过在AI学习的过程中去有了障碍。机器学中文有四重难,第一重难度是语速太多,现在的简体中文被认为是一种语速文字,有的地方也说成表意文字,语速就是最小语义单位,简单说主要就是字,还有一些不能拆分的词。

这导致汉语的基本单元有成千上万个,比如表达马的字有十多个之多,反正不就是一个马吗?这让AI选择的时候就有了麻烦。英文是一种表音文字,对应来说就是音素文字,只有48个音素,最小单元比汉语更少,这意味着中文训练的数据标记难度更大。

第二重难度没有空格。中文打字的时候除了标点符号之外,大部分字与词之间没有空格,机器不知道词与从哪开始,从哪结束。

第三重难度,多音字、同音字太多。因为汉字有四个音调,同音字很多,这样语音识别更难。

 令我们骄傲的中文却让AI犯了难

 

第四重难度,语法天马行空,现在全世界的语言都在分析语的道路上发展,也就是把简单语速。通过语法来回排列来表达复杂的意思,这是一个语言简单高效的特征。汉语变成白话,其实就已经分析化了,用有限的字通过语法构成无限的意思还好学易懂,放弃了为每个意思造一个新字的做法,所以常用汉字就剩两三千个,康熙字典里面的好几万个字就自动淘汰了,这是进化而不是退化,这让我们民族的教育程度大幅度提高。

汉语的简体化和白化并不是100%的,目前的状态实际上是古今混合。比如大量的成语就不太分析语化,像蝇营狗苟,意思很清楚但语法何在?AI无法通过一般的语法解剖思维去理解,只能做整个的标注。

------分隔线----------------------------
日常分享