AI界的七大未解之谜:OpenAI丢出一组AI研讨课题

数盟 · 12小时之前

明天,OpenAI在官方博客上丢出了7个研讨进程中发现的未处理成绩。

OpenAI想这些成绩可以成为老手入坑AI的一种风趣而有意义的体式格局,也协助从业者提拔技艺。

OpenAI版AI界七大未解之谜,如今正式揭晓――

1. Slitherin’

难度指数:☆☆

完成并处理贪吃蛇的多玩家版克隆作为Gym情况。

情况:场地很大,里边有多条蛇,蛇经过吃随机呈现的生果发展,一条蛇在与另一条蛇、自个或墙壁相撞时即灭亡,当一切的蛇都死了,游戏完毕。

智能体:运用自个选择的自我棋战的RL算法处理情况成绩。你需求测验考试各类办法克制自我棋战的不波动性。

反省进修行为:智能体能否学会了合时捕获食物并避开其他蛇类?能否学会了进击、谗谄、或许结合起来凑合竞争敌手?

2. 散布式强化进修中的参数均匀

难度指数:☆☆☆

这指的是探求参数均匀计划对RL算法中样本复杂度和通讯量影响。一种复杂的处理办法是均匀每个更新的每个worker的梯度,但也能够经过自力地更新worker、增加均匀参数节约通讯带宽。

如许做还有一个益处:在任何给定的工夫内,咱们都有分歧参数的智能体,能够呈现更好的探测行为。另一种能够是运用EASGD如许的算法,它能够在每次更新时将参数局部连系在一同。

3. 经过生成模子完成的分歧游戏中的迁徙进修

难度指数:☆☆☆

这个流程如下:

练习11个Atari游戏的战略。从每个游戏的战略中,生成1万个轨迹,每个轨迹包括1000步举动。

将一个生成模子(如论文Attention Is All You Need提出的Transformer)与10个游戏发生的轨迹相婚配。

然后,在第11场竞赛中微调上述模子。

你的目的是量化10场竞赛预练习时的益处。这个模子需求什么水平的练习才干发扬感化?当第11个游戏的数据量增加10x时,结果的巨细若何转变?假如减少100x呢?

4. 线性留意Transformer

难度指数:☆☆☆

Transformer模子运用的是softmax中的软留意力(soft attention)。假如能够运用线性留意力(linear attention),咱们就能将失掉的模子用于强化进修。

详细来说,在复杂情况下运用Transformer布置RL不实在际,但运转一个具有疾速权重(fast weight)的RNN可行。

你的目的是承受任何言语建模义务,练习Transformer,然后找到一种在不添加参数总数状况下,器具有分歧超参数的线性留意Transformer获取每个字符/字的相反位元的办法。

先给你泼盆冷水:这能够是无法完成的。再给你一个潜在的有效提醒,与运用softmax留意力比拟,线性留意转化器很能够需求更高的维度key/value向量,这能在不明显添加参数数目的状况下完成。

5. 已进修数据的扩大

难度指数:☆☆☆

能够用进修过的数据VAE执行“已进修数据的扩大”。

咱们起首能够需求在输出数据上练习一个VAE,然后将每个练习点编码到一个潜在的空间,之后在个中使用一个复杂(如高斯)扰动,最初解码回到察看的空间。用这种办法能否能失掉更好的泛化,今朝照样一个谜题。

这种数据扩大的一个潜在优势是,它能够包括视角变换、场景光纤转变等许多非线性转换。

6. 强化进修中的正则化

难度指数:☆☆☆☆

这指的是实行性研讨和定性注释分歧正则化办法对RL算法的影响。

在监视进修中,正则化关于优化模子和避免过拟合具有极端主要的意义,个中包括一些结果很赞的办法,如dropout、批规范化和L2正则化等。

但是,在战略梯度和Q-learning等强化进修算法上,研讨人员还没有找到适宜的正则化办法。特地说一下,人们在RL中运用的模子要比在监视进修中运用的模子小得多,由于大模子显示更差。

7. Olympiad Inequality成绩的主动处理计划

难度指数:☆☆☆☆☆

Olympiad Inequality成绩很轻易表达,但处理这个成绩常常需求巧妙的手法。

树立一个关于Olympiad Inequality成绩的数据集,编写一个能够处理大局部成绩的顺序。今朝还不清晰机械进修在这里能否有效,但你能够用一个进修的战略增加分支要素。

媒体协作请联络:

邮箱:contact@dataunion.org