网上有人说中文语料库不行会导致人工智能在第一步就低能,所以语料库中有什么非常非常非常重要。你还不能过多的整理选择语料,因为那样属于干扰了自然语言环境,人工智能就不是向别人的那种正常训练出来的了,会导致在真实社会中根本无法使用。 我们用最简单的方式来比对一下中英文语料库,先说英文GPT3的英文训练数据,除了数据和期刊之外,大量数据来自维基百科、redit、common。前两个大家都很熟悉了。最后这个common是一个非盈利组织,它对网络进行爬虫,向公众免费提供器档案和数据集,数据包含原始网页、云数据和文本提取。 common数据来自不同语言、不同领域,但重点研究实验室一般会首先选取它的纯英文过滤版作为数据集。GPT3的训练数据还包括开放图书网站、技术问答社区、代码社区、论文期刊网站、新闻存档网站、医疗数据网站等等。 这些英文优质数据的产生有一个共同点就是开源和开放,再看中文刚才说的那些英文语料来源。在我们这边相对应的都是些什么?爬虫能爬到什么可想而知。有干这一行的人形容语料库用了一个字,脏,这简直就是一个字的长篇小说,太形象了。
数量上MOS团队也说过,MOS的英文回答水平比中文高,因为他的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个,这是10 : 1的优势。这一切另外的专业人士也给过委婉的解释,相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。 英文作为科研主流语言,在学术界和工业界得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。结论就是简中互联网的语料积累和外面的差距大的无法想象,这才是中国发展自然语言、人工智能真正的挑战所在。顺便说一句我们每个人在网上少骂人,少发一些垃圾,少在百科里面瞎编乱造,让语料库争增长一点点,就是给国家科技做贡献了。 |