第322章沉迷游戏OpenAI（合）_重生之AI教父

因为下围棋对玩家来说，就是一两百手的决策需要做出。

dota2这样的策略游戏，单个英雄需要一盘下来需要操作上万次。

其中每次操作可能是行走、攻击、施法、使用物品、交易物品等等，根据英雄的不同，AI可选择的操作有8千～8万种。

需要判断的东西也有太多了，英雄，小兵，防御塔；血量，攻击，护甲，位置，等级；物品，技能，状态栏。

这种游戏当中，值得关注的信息点也是海量，绝非轻易能够搞明白的。

在深度学习阿尔法围棋取得世界瞩目的成绩之后，openAI押宝了强化学习，而孟繁岐最近则将注意力集中在了Gpt大语言模型上。

“openAI那边的事情过段时间再看，眼下最重要的事情还是尽快出一版chatGpt。”

虽然对openAI手头的事情比较感兴趣，不过事情还是要分清主次。

前世chatGpt的出现震惊了整个世界，毫无疑问，它又强又聪明，跟它说话很好玩，还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。

那么问题就来了：chatGpt是怎么变得这么强的？

Gpt技术早已有之，为何此前并没有如此强劲的威力呢？

这个问题最浅显的回答当然是数据和模型的规模，在前世，17到19年，大家还普遍在玩几个亿大小的人工智能模型。

结果chatGpt直接就把这个数字干到了1750亿。

整整一千多倍的差距，使得人工智能模型在知识密集型任务上的性能实现了飞跃。

人们普遍认为，更多的模型参数记住了更多的知识。

数据则是另一大原因，三千亿单词的文字库加上Gpt的模式，两者强强结合，产生了神奇的化学反应。

孟繁岐认为这些很容易想到的观点是正确的，但只靠这两者还远远不够。

一个非常好的例子就是Gpt3，chatGpt实际上是Gpt3.5版本。

Gpt3最初版的模型大小并不逊色于chatGpt，训练使用的数据也相差不多，但实际的能力和效果确是天差地别。

不能说Gpt3很弱，因为在很多任务上，它都挺出色地回应了很多指令。但同样的，在许多任务上，它的性能会非常诡异地逊色于远远小于它的模型。

因此，如果考虑到我们想要追求的是一款比较全面的通用智能的话，的确可以说Gpt3不咋地。

可前世后来的许多研究都表明，其实Gpt3有着很大的潜力，这些能力后来通过代码训练，指令微调和基于人类反馈的强化学习（也就是大名鼎鼎的RLhF）解锁，最终版本终于展现出了强大的威力，成为了chatGpt。

“首先，我要做的就是先获得一个初始的Gpt3，不过我现在很难做1750亿参数那么大，最多只能做到350亿参数左右。”

孟繁岐选择这个大小，是根据最新的p100显卡的显存深思熟虑之后的结果。

这里其实并不存在放不下放得下的问题，前世chatGpt使用的A100显卡也就只有80G的显存，想放下1750亿参数那是痴人说梦。

孟繁岐有着一套拆分模型的招式，能够无限制地将庞大的模型拆分到不同的显卡上面。

理论上来说，只要显卡够多，他就能够无限制地训练更加庞大的模型。

如果100张可以训练100亿参数，那么张就能训练亿参数。

可理论终究是理论，同时调度过多的显卡是非常痛苦的事情。

单张显卡出状况，很有可能好几周的成果都会受到影响。

孟繁岐出于风险的控制，选择了350亿的大小，他有信心可以将最后的结果做得跟初版1750亿参数的chatGpt相差无几。

获得最基础的Gpt3模型并不困难，基础的模型结构一年半之前，孟繁岐就已经实现了许多。

庞大的人工智能模型只是最基础最核心结构的反复堆叠，并不需要从头仔细设计一个不同的版本。

就像是二阶魔方和三阶魔方的区别，基础的模块是那一个个小方块，二阶魔方拥有2x2x2一共8个方块，三阶魔方则有3x3x3，一共27个方块。

基本元素没有任何的改变，只是数量上变多了。

而这些参数的设置，除了最好是2的N次方之外，通常也没有什么特别的规矩和道理。

因此，只要单纯地将此前已经做过的Gpt系列模型放大、加深，孟繁岐就已经获得了一个350亿左右参数的Gpt3模型。

但想要将这个大小的模型给训练起来，那可就麻烦了。

“350亿参数的模型，参数本身、梯度、优化器的状态个个都是本身大小的好几倍。按理来说，每一台服务器都应当有tb级别的内存来存放这些状态。现在你们知道，我为什么特意要求英伟达将服务器内存再扩大好几倍了吧？”

显卡的显存是比较高难度的硬件技术问题，英伟达一时间也没法解决。

但服务器却是可以加装高速内存的。

在普通人的游戏主机上，通常都是2到4根内存条，一般一根8G或者16G的居多。

正常的用户，内存大都是8到32G，富有一点的，64乃至128，不得了了。

而孟繁岐则是为每一台服务器，直接配备了4个t的内存大小。

其规模令人瞠目结舌。

这特么的可是内存，不是硬盘啊！

内存只是一种临时存储设备，用于存储计算机正在使用的数据和程序。

硬盘才是用来永久存放数据和文件的设备。

“4t的内存...比我自己电脑的总硬盘量还大两倍...”

此时此刻，主流的笔记本一共可能才500G，自己组装的台式机也就1t的硬盘大小。

这一台的内存，就能装下8台中高端笔记本的所有数据，奢华的程度，不言而喻。

孟繁岐使用大量的高速内存，目的在于解决当今显卡的显存不足问题。

将绝大多数暂时不参与运算的数据和参数，从显卡移到内存上，需要的时候再从内存取回。

如此反复读写，需求次数太多，普通的硬盘速度太慢，孟繁岐直接上了内存级别的设备。

钞能力发动！

“训练启动，那就得几个月后见了。”孟繁岐为了这一刻已经持续收集了接近两年的高质量数据，上千亿词的训练数据，总规模已经接近两个t的大小。

“等到夏天，差不多应该可以完工，到时候还得专门针对中文优化一版，更适合华国宝宝体质的chatGpt。”

前世中文数据的质量和数量都不大够，孟繁岐当然要弥补这个遗憾。

“算算时间，我也差不多要本科毕业了，这个chatGpt，就当我的毕业设计成果吧。”

第322章 沉迷游戏OpenAI（合）（2 / 2）

第322章沉迷游戏OpenAI（合）（2 / 2）