清华、北大等发布Self-Play强化学习最新综述机器之心

德州撲克遊戲下載德州撲克遊戲下載 🕒 8 🗒️ 3534

自博弈（self-play）指的是智能体通过与自身副本或历史版本进行博弈而进行演化的方法，近年来在强化学习领域受到广泛重视。我们定义了一个统一的自博弈框架，并将自博弈算法分为四大类：传统自博弈算法、PSRO 系列算法、基于持续训练的系列算法和后悔最小化系列算法。算法框架首先，该框架（算法1）的输入定义如下： ● : 在策略集合中，每个策略都取决于一个策略条件函数。 ● : 策略集合的交互矩阵。描述了如何为策略采样对手。例如，可以用每个对手策略采样概率表示（此时如下图所示）。 ● : 元策略求解器（Meta Strategy Solver，MSS）。输入是表现矩阵，并生成一个新的交互矩阵作为输出。表示策略的表现水平。该框架（算法1）的核心步骤说明： ● 算法1伪代码第1行：表示整个策略集合的总训练轮数，也即策略池中每个策略的更新次数。 ● 算法1伪代码第3行：各个策略初始化可以选择随机初始化、预训练模型初始化或者是继承之前训练完成的策略进行初始化。 ● 算法1伪代码第4行：可以选用不同的 ORACLE 算法得到训练策略，最直接的方式是计算 BR 。但是由于对于复杂任务来说，直接计算 BR 难度高，因此通常选择训练近似BR来训练策略，可以采用强化学习（算法2），进化算法（算法3），后悔最小化（算法4）等方法。类型一：传统自博弈算法传统自博弈算法从单一策略开始，逐步扩展策略池，包括Vanilla self-play（训练时每次对手都选择最新生成的策略），Fictitious self-play（训练时每次对手都在现有训练完的策略中均匀采样），δ-uniform self-play（训练时每次对手都在现有训练完的最近的百分之δ策略中均匀采样），Prioritized Fictitious Self-play（根据优先级函数计算当前训练完的策略的优先级，训练时每次对手都根据这个优先级进行采样），Independent RL（训练时双方策略都会改变，对手策略不再固定）。类型二：PSRO 系列算法类似于传统自博弈算法，Policy-Space Response Oracle（PSRO）系列算法同样从单一策略开始，通过计算 ORACLE 逐步扩展策略池，这些新加入的策略是对当前元策略的近似 BR 。PSRO 系列与传统自博弈算法的主要区别在于，PSRO 系列采用了更复杂的MSS，旨在处理更复杂的任务。例如，α-PSRO 使用了基于 α-rank 的 MSS 来应对多玩家的复杂博弈。类型三：持续训练系列算法 PSRO 系列算法中存在的两个主要挑战：首先，由于训练成本大，通常在每次迭代中截断近似BR计算，会将训练不充分的策略添加到策略池；其次，在每次迭代中会重复学习基本技能，导致效率较低。为了解决这些挑战，基于持续训练系列的算法提倡反复训练所有策略。与前面提到的两类最大区别是，持续训练系列算法同时训练整个策略池策略。这类算法采用多个训练周期，并在每个训练周期内依次训练策略池所有策略，而不再是通过逐步扩展策略池进行训练。类型四：后悔最小化系列算法另一类自博弈算法是基于后悔最小化的算法。基于后悔最小化的算法与其他类别的主要区别在于，它们优先考虑累积的长期收益，而不仅仅关注单次回合的表现。这种方法可以训练得到更具攻击性和适应性的策略，避免随着时间的推移被对手利用。这些算法要求玩家在多轮中推测并适应对手的策略。这种情况通常在重复博弈中观察到，而不是单回合游戏中。例如，在德州扑克或狼人游戏中，玩家必须使用欺骗、隐瞒和虚张声势的策略，以争取整体胜利，而不仅仅是赢得一局。各类型算法比较与总结图

应用

在本节中，我们通过将三类经典场景来介绍自博弈的经典应用：棋类游戏，通常涉及完全信息；牌类游戏（包括麻将），通常涉及不完全信息；以及电子游戏，具有实时动作而非简单回合制游戏。场景一：棋类游戏棋类游戏领域，绝大多数是完全信息游戏，曾因引入两项关键技术而发生革命性变化：位置评估和蒙特卡罗树搜索。这两项技术在象棋、西洋跳棋、黑白棋、西洋双陆棋等棋盘游戏方面展现了超越人类的效果。相比之下，当这些技术应用于围棋时，由于围棋棋盘布局种类远超于上述提到的棋类游戏，因此仅能达到业余水平的表现。直到 DeepMind 推出了 AlphaGo 系列而发生了革命性的变化，AlphaGo 系列算法利用自博弈的强大功能显著提升了性能，为围棋领域设立了新的基准。除了围棋，还有一种难度较高的棋类游戏是“军棋”（Stratego）。与大多数完全信息的棋类游戏不同，“军棋”是一个两人参与的不完全信息棋盘游戏。游戏分为两个阶段：部署阶段，玩家秘密安排他们的单位，为战略深度奠定基础；以及游戏阶段，目标是推断对手的布局并夺取他们的旗帜。DeepNash 采用基于进化的自博弈算法 R-NaD 达到了世界第三的人类水平。场景二：牌类游戏德州扑克（Texas Hold’em）是一种欧美流行的扑克游戏，适合 2 到 10 名玩家，当玩家数量增加，游戏变得更加复杂。此外，有三种下注形式：无限注、固定注和底池限注。每种形式在具有不同的游戏复杂度。在牌类游戏中，游戏抽象对于简化游戏复杂程度至关重要，可以将游戏的庞大状态空间减少到更容易处理的数量。Cepheus 采用后悔最小化系列算法 CFR+ 解决了最容易的双人有限注德州扑克。对于更复杂的双人无限注德州扑克，DeepStack 和 Libratus 采用子博弈重新计算的方式来实时做出决策，击败职业德州扑克选手。Pluribus 在 Libratus 基础上更进一步解决了六人无限注德州扑克。斗地主需要同时考虑农民之间的合作和农民地主之间的竞争。斗地主同样是不完全信息博弈，这为游戏增加了不确定性和策略深度。DeltaDou 是基于 AlphaZero 开发的首个实现专家级斗地主表现的算法。之后的 DouZero 通过选择采样方法而非树搜索方法来降低训练成本，采用自博弈获取训练数据。麻将同样基于不完全信息做出决策，此外，麻将的牌数更多，获胜牌型也更为复杂，对 AI 更具挑战性。Suphx 通过监督学习和自我博弈强化学习成为首个达到与人类专家水平的算法。NAGA 和腾讯设计的 LuckyJ 同样也在在线平台上达到了人类专家水平。场景三：电子游戏与传统棋类游戏和牌类游戏不同，电子游戏通常具有实时操作、更长的动作序列以及更广泛的动作空间和观察空间。在星际争霸（StarCraft）中，玩家需要收集资源、建设基地并组建军队，通过精心的计划和战术执行，使对方玩家失去所有建筑物，来取得胜利。AlphaStar 使用监督学习、端到端的强化学习和分层自博弈训练策略，在星际争霸II的 1v1 模式比赛中击败了职业玩家。 MOBA游戏要求两支玩家队伍各自操控他们独特的英雄，互相竞争以摧毁对方的基地。每个英雄都有独特的技能，并在队伍中扮演特定的角色，也无法观测全部地图。OpenAI Five 在简化版本的 Dota 2 中击败了世界冠军队，其训练过程使用混合类型自博弈，有 80% 的概率进行 Naive self-play，20% 的概率使用 Prioritized self-play。腾讯同样采用自博弈训练在王者荣耀游戏 1v1 和 5v5 模式中都击败了职业选手。 Google Research Football（GRF）是一个开源的足球模拟器，输入是高层次的动作，需要考虑队友之间的合作和两个队伍之间的竞争，且每队有 11 人。TiKick 通过 WeKick 的自博弈数据进行模仿学习，再利用分布式离线强化学习开发了一个多智能体AI。TiZero将课程学习与自博弈结合，无需专家数据，达到了比TiKick更高的TrueSkill评分。各场景类型比较与总结图讨论自博弈方法因其独特的迭代学习过程和适应复杂环境的能力而表现出卓越的性能，然而，仍有不少方向值得进一步研究。虽然许多算法在博弈论理论基础上提出，但在将这些算法应用于复杂的现实场景时，往往存在理论与现实应用的差距。例如，尽管 AlphaGo、AlphaStar 和 OpenAI Five 在实证上取得了成功，但它们的有效性缺乏正式的博弈论证明。随着团队数量和团队内玩家数量的增加，自博弈方法的可扩展性面临显著挑战。例如，在 OpenAI Five 中，英雄池的大小被限制在仅17个英雄。根本上是由于自博弈方法在计算和存储两个方面训练效率有限：由于自博弈的迭代特性，智能体反复与自身或过去的版本对战，因而计算效率较低；自博弈需要维护一个策略池，因而对存储资源需求较高。凭借卓越的能力和广泛的泛化性，大型语言模型（LLM）被认为是实现人类水平智能的潜在基础。为了减少对人工标注数据的依赖，自博弈方法被利用到微调LLM来增强LLM的推理性能。自博弈方法还在构建具有强大战略能力的基于 LLM 的代理方面做出了贡献，在”外交“游戏中达到了人类水平的表现。尽管近期取得了一些进展，将自博弈应用于 LLM 仍处于探索阶段。自我博弈面另一个挑战是其在现实具身场景中无法直接应用。其迭代特性需要大量的试验和错误，很难直接在真实环境中完成。因此，通常只能在仿真器中进行自博弈训练，再将自博弈有效部署到现实具身场景中，关键问题仍在于克服 Sim2Real 差距。

FAQ

德州扑克可以加注几次？

限注德州扑克每位牌手每一轮最多只能下注四次：下注、加注、再加注、最后加注。每一个押注圈只允许一次下注与三次加注。打个比方——在翻牌圈里，某人

WPK-微扑克德州扑克最近有活动或赛事送钻石吗

WPK-微扑克德州扑克最近有活动或赛事送钻石吗 WPK-微扑克俱乐部不定期会举办各种活动和赛事，金三角俱乐部提供3/6起步在线约局，不定期送钻

How do people play on WPT Global?

WPT Global offers a dedicated mobile poker app for both Android and iOS users, allowing you to play poker anytime and anywhere with a mobile internet or Wi-Fi connection. Android users can visit the Google Play Store, search for “WPT Global,” and download the app.

GG扑克官网是哪个？

天天德州扑克时下最火爆的智力竞技游戏，最高端上流的扑克玩法。腾讯精品打造《天天德州》，融合常规场、坐满即玩、锦标赛等多种主流玩法，满足不同类

Is WPT Global a good site?

Our professionals rate WPT Global with 4.2/5, an excellent rating for a new poker site. ✅ Is WPT Global legal? The site has an operating license issued by Gaming Curacao, which makes it a legal online poker room.

Can you play WPT Global with VPN?

Can you play WPT Global with a VPN? No, WPT Global does not allow the use of a VPN. However, a VPN that offers residential VPNs may be able to give you access.30 ต.ค. 2567

本網站僅收集相關文章。如需查看原文，請複製並打開以下連結：清华、北大等发布Self-Play强化学习最新综述机器之心

🎗️ 最新文章 🥁

🎼 熱門文章 🎊

🎲 推薦文章 🎉

对付相对简单的玩家可以采取三个简单的策略对付相对简单的玩家可以采取三个简单的策略你可能已经学过如何使用一些标准的无限注德州扑克打法，比如诈唬、半诈唬、先跟再推和float。下面我再

德州扑克德扑中级进阶

翻牌圈下注的四个法则翻牌圈下注的四个法则当你作为翻前的加注者处在有利位置时，你应该考虑在翻牌圈作持续下注。上述情况主要是由“当你翻前在按钮位置加注，而盲注位置的

德州扑克德扑高级养成

赌徒输光定理深度解析part3 赌徒输光定理带给扑克人的启发（深度）part1：https://www.moshike.com/a/528.html 什么是波动？在统计学术语

德州扑克德扑高级养成

KJs在翻前遭遇巨大加注，如何行动？ KJs在翻前遭遇巨大加注，如何行动？牌局背景及过程这手牌来自一场无限德州扑克锦标赛。盲注1200/2400，桌上玩家筹码量如图。翻前，前面玩

德州扑克德扑高级养成

#	文章標題	關鍵詞
1	What states allow WPT? WPT Global	WPT Global
2	What is the WPT Global no deposit bonus? WPT Global	WPT Global
3	Can you play WPT Global with VPN? WPT Global	WPT Global
4	Poker 可以几个人玩？ WPK微扑克	WPK微扑克
6	What is the minimum deposit for WPT... WPT Global	WPT Global
7	德州扑克可以加注几次？德州撲克遊戲下載	德州撲克遊戲下載
9	微扑克下载与安装方法2024最新版 WPK	WPK
11	WPK-微扑克俱乐部是否有代理合作机会，可以送WPK钻石吗？ WPK	WPK
12	德州扑克算赌博吗？ WPK微扑克	WPK微扑克
13	WPK-微扑克虚拟币充值双重送 FAQ WPK	WPK
15	WPK-微扑克德州扑克最近有活动或赛事送钻石吗 WPK	WPK
16	Is WPT Global legal in California? WPT Global	WPT Global
17	Poker中文是什么？ WPK微扑克	WPK微扑克
18	德州扑克先给谁发牌？ WPK微扑克	WPK微扑克
19	Can I play WPT Global in the UK? WPT Global	WPT Global
20	扑克牌玩法有哪些扑克牌游戏大全德州扑克玩法德州扑克	德州扑克
23	Does WPT use real money? WPT Global	WPT Global
25	德州扑克App有哪些？德州撲克遊戲下載	德州撲克遊戲下載
26	How much is a WPT membership? WPT Global	WPT Global
27	线上德州扑克优质局百桌爆满，2000人规模大俱乐部！ WPK	WPK
28	下载WePoker安卓APP - 体验极致扑克乐趣 WePoker	WePoker
29	How do I deposit money into WPT Global? WPT Global	WPT Global
31	WPK-微扑克有在线约局的客服联系方式？ WPK	WPK
32	WPK-微扑克虚拟币充值双重送 FAQ WPK	WPK
33	What countries can play WPT Global? WPT Global	WPT Global
34	How does WPT work? WPT Global	WPT Global
36	WePoker下载指南：如何安装和使用WePoker德州扑克应用我们扑克	我们扑克
37	WPK-微扑克俱乐部提供哪些德州局，级别上限是多少？ WPK	WPK
38	德州扑克的游戏基本规则德克萨斯扑克游戏小技巧德州扑克	德州扑克
39	德州扑克几个人可以玩？ WPK微扑克	WPK微扑克
40	How does the WPT work? WPT Global	WPT Global
41	Who bought WPT Global? WPT Global	WPT Global
42	微扑克俱乐部活动与赛事概述微扑克俱乐部	微扑克俱乐部
43	How long does WPT Global Withdrawal... WPT Global	WPT Global
44	How good is WPT Global? WPT Global	WPT Global
45	Poker可以几个人玩？ WPK微扑克	WPK微扑克
50	Can you win real money on WPT online? WPT Global	WPT Global
51	How do people play on WPT Global? WPT Global	WPT Global
52	WPTGO微扑克的替代产品，推荐给国外玩家 WPK	WPK
53	Is WPT Global poker legal in California? WPT Global	WPT Global
55	Is WPT Global safe? WPT Global	WPT Global
56	Can you play WPT Global in the UK? WPT Global	WPT Global
57	Who can play WPT Global? WPT Global	WPT Global
58	Can you play WPT Global on mobile? WPT Global	WPT Global
59	Is ClubWPT real money? WPT Global	WPT Global
60	WPK-微扑克微扑克俱乐部游戏资金出入安全有保证吗？ WPK	WPK
61	Is ClubWPT for real money? WPT Global	WPT Global
62	微扑克的俱乐部约局必赚高级技巧有哪些微扑克	微扑克
63	Does WPT still exist? WPT Global	WPT Global
64	微扑克的高级技巧有哪些，玩微扑克俱乐部约局的建议 WPK	WPK
65	Is WPT legal in the US? WPT Global	WPT Global
66	德州扑克是哪里的？ WPK微扑克	WPK微扑克
67	德州扑克什么位置最好？德州撲克遊戲下載	德州撲克遊戲下載
69	Can I play WPT Global in California? WPT Global	WPT Global
70	Can you win real money on ClubWPT? WPT Global	WPT Global
71	Wepoker是什么？ WPK微扑克	WPK微扑克
72	Who can play on WPT Global? WPT Global	WPT Global
73	Who owns the WPT Global? WPT Global	WPT Global
74	How to install WPT Global? WPT Global	WPT Global
75	Can Americans play on WPT Global? WPT Global	WPT Global
78	德州扑克是赌博吗？德州撲克遊戲下載	德州撲克遊戲下載
80	Is WPT Global available in the US? WPT Global	WPT Global
81	GG扑克官网是哪个？ WPK微扑克	WPK微扑克
82	Can you play WPT Global on computer? WPT Global	WPT Global
83	微扑克约局的方法？微扑克	微扑克
84	What is the code for WPT Global Poker? WPT Global	WPT Global
85	WPK-微扑克线上德州扑克优质俱乐部 FAQ WPK	WPK
86	德州扑克的英文是什么？ WPK微扑克	WPK微扑克
87	Is WPT Global a good site? WPT Global	WPT Global
88	德州扑克最少几个人玩？ WPK微扑克	WPK微扑克
89	GG扑克正规吗？德州撲克遊戲下載	德州撲克遊戲下載

清华、北大等发布Self-Play强化学习最新综述 机器之心

FAQ

德州扑克可以加注几次？

WPK-微扑克 德州扑克最近有活动或赛事送钻石吗

How do people play on WPT Global?

GG扑克官网是哪个？

Is WPT Global a good site?

Can you play WPT Global with VPN?

微撲克 WPT Global 真金APP下載頻道

MSN Games

Playtika - Games Lobby

其他品牌棋牌麻将_游戏扑克牌 10副多少钱-什么值得买

肉鸽游戏《零秒》Steam页面上线 支持简中 国产游戏_网易订阅

德扑模拟网站【624162】微信_德扑模拟网站【624162】微信推荐 - 苏宁易购

Download Poker Software 下載最好的撲克軟件 Natural8

清华、北大等发布Self-Play强化学习最新综述机器之心

WPK-微扑克德州扑克最近有活动或赛事送钻石吗

肉鸽游戏《零秒》Steam页面上线支持简中国产游戏_网易订阅