大规模语言模型,微信版,来了!

并且甫一登场,就没藏着掖着:

论文、API接口、在线试玩网站……一条龙全都齐备。

续写文本、阅读理解等常规任务就不说了,这个名叫WeLM的AI,竟然直接让我和李白跨时空聊起了杜甫:

我:现在有一首关于你的歌,其中一句歌词是「要是能重来,我要选李白」,请问你自己有什么看法?

李白:我要选杜甫。

这还不算完,WeLM甚至还治好了我不会聊天的毛病,分分钟教会我如何高情商说话。

这么一个AI,参数量不算大,目前处于百亿水平。

但值得关注的是,实验结果显示,它在18个中文语言任务里,效果堪比参数量是其25倍的模型。

是不是有点手痒想上手一试了?先奉上链接,咱们再仔细说说,这波微信是怎么做到的。

体验链接:
https://welm.weixin.qq.com/docs/playground/
API接口:
https://welm.weixin.qq.com/docs/api/
论文地址:
https://arxiv.org/abs/2209.10372

「学富五车」的大模型

微信语言大模型WeLM,全名Well-Read Language Model,也就是「学富五车的语言模型」。

在翻译任务上,WeLM不光可以做到基本的,甚至三语夹杂也难不倒它。

在文本续写任务上,只需给出开头就能生成适应不同风格的文本。

这种多语言、多任务能力是怎么做到的?

其实WeLM与著名的GPT-3是同类,都是自回归解码器结构,微信团队选择这种结构就是看中其在海量数据中掌握无穷范式的能力。

在具体实现方法上,WeLM还有两项特色。

一是采用RoPE相对位置编码,与传统的固定位置编码相比能更好处理长文本,比如理解整篇文章甚至整本书。

二是使用62k个token的SentencePiece并保留其中的空格和Tab,这样更有利于下游任务。

使用这些方法,WeLM总共设计了从13亿到100亿参数的三个版本,可按需调用。

其中100亿参数的满血版WeLM在14项中文任务中整体表现超过同大小的模型,甚至在零样本任务上超过比它大25倍的模型。

这其中最大的秘诀就是精心准备的高质量训练数据上充分训练,也就是「学富五车」的含义所在。

高质量训练数据包括从Common Crawl下载的近两年中文网页、大量书籍、新闻、论坛数据和学术论文。

收集到的数据总量超过10TB,其中包含750G英文数据,中文中夹杂的英日韩语为了语义连贯也全部保留。

不过这还不算完,需要经过清洗、去重等一系列步骤才能算得上是高质量数据。

首先是去除噪声和脏数据,结合使用规则和模型检测后,超过87%的数据被过滤。

再利用SimHash算法去重,进一步过滤掉40%的数据。

接下来要去除一切和测评相关的数据,保证公平性,以 17-gram 为检测重复粒度再次过滤了0.15%的数据。