AI如何个性化任务和锦标赛挑战
1)为什么要个性化
任务和锦标赛任务的AI个性化:- 提高相关性("音调"任务,没有无聊的格林);
- 减少阻力(玩家轮廓下的复杂性和持续时间);
- 改善重建和参与(可见进展,可理解的目标);
- 保护经济(受控颁奖和条件诚实)。
关键:个性化和公平的平衡--个人目标不应该在游戏中产生数学优势。
2)数据信号(模型输入)
行为:插槽/提供者类型,平均费率,旋转速度,会话长度,白天时间,输入频率。
进度:级别/CR,完成过去的任务,锦标赛的成功/失败,streak'y。
财务:存款/结算(汇总,没有敏感细节),对奖金的敏感性。
社会:参与聊天/活动、剪辑/回放、社区反应(如果有)。
上下文:设备、登录通道、内容/提供商地理限制。
RG信号:时间限制/存款,倾向于长会话-降低复杂性和软停顿。
3)模型堆栈
1.聚类(未聚类)
K-Means/DBSCAN/HDBSCAN →行为细分:"短跑选手","收藏家","锦标赛老板","品牌忠诚于提供商"。
用法:选择分区下方的基本"任务框架"。
2.Propensity得分(超级)
目标:在T窗口后完成任务X的概率,参加比赛的可能性/完成。
模型:Gradient Boosting(GBDT),逻辑回归,表变形金刚。
3.上下文匪徒(contextual bandits)
目的:通过探索/探索控制,在线选择任务类型和复杂性。
方法:LinUCB/Thompson采样。
4.RL/政策学习(可选)
目的:优化任务/任务(链)序列,以保持玩家不过热。
限制:严格的安全保障(见第7条)。
4)数据线和销售解决方桉
事件收集:事件巴士(Kafka/Redpanda),模式:旋转,session_start/end,mission_progress,tournament_result。
Fichering:1h/24h/7d框架;总量(利率中位数,速度方差,提供商的多样性)。
配置/模型更新:每1-7天离线一次;每个环节的在线评分+土匪的部分补习。
发行限制:诚实政策(评级限制,奖励帽,RG限制)。
决策的逻辑:显示了谁/何时/哪种策略变体,机会,预期的复杂性,实际结果。
5)任务生成器(决策逻辑)
1.部分:群集→基本任务篮子(流派,持续时间)。
2.合成过滤器:提供商,地理,RG限制(包括白天时间限制)。
3.Propensity评分:根据完成概率和预期价值(EV还原)对候选人进行排名。
4.上下文强盗:选择1-2名具有ε排名的最佳候选人。
5.难度调整:将目标(自旋/投注/时间)调整为外围窗口(例如工作日晚上/周末)。
6.发射帽:季节性代币/化妆品预算检查。
7.有意义的选择:提供1个备用任务(X小时一次"更改"按钮)。
6)个性化比赛任务
根据MMR和历史选择联赛/分区-独立于VIP(请参阅上一篇文章)。
比赛中的个人微目标:"扮演3个提供者","保持节奏≤N旋转/分钟","前X%的徽章"-绕过螺旋线。
灵活的参与窗口:玩家更频繁在线的时间段;AI建议排位赛。
获奖的轮廓轨道:化妆品和令牌,考虑到稀有性,但没有增加RTP/矩阵。
7)AI的诚实规则,责任和限制
Safety-constreint:每天最多N个人的任务;禁止在RG疲劳信号下增加复杂性。
透明度:"如何选择任务"屏幕:细分,上下文,防止失败(pity timers),奖励帽。
公平:同样的奖项上限;个性化改变了路径而不是最终价值。
Responsible Gaming:软停顿,"休息"建议,日间限制-嵌入在息肉中。
隐私:仅限于单元;超出调控最低限度的模型焊料中没有PII。
8)反滥用和反游戏
单一周期设计:任务周期性高的重复→需要变异(提供者/出价/时间)。
节奏帽:不超过X任务/天,在"快速"任务之间冷静下来。
复杂警卫队:下限/上限;禁止激增。
锦标赛中的紧身:网络/行为签名,大师联赛中的随机KYC支票。
日志审核:决策的可解释性(reason codes:细分,propensity, bandit-arm)。
9)成功指标
Uplift D7/D30个性化与基础。
任务完成率和Median时间完成率(TTC)。
Stickiness(DAU/MAU),Avg Session Length(带有RG监护人)。
奖项分配的Gini(相似努力的均匀性)。
"不公正"和Mute/Opt-out Rate个性化的Complaint Rate。
ROI 奖/GGR奖是促销经济的可持续性。
探矿成本土匪和Regret-用于配置ε/汤普森采样。
10)发射的A/B模式
1.任务类型:提供者vs流派。
2.任务长度:短(≤15分钟)vs中等(30-40分钟)。
3.Pity timers:在相同的p₀下硬对软。
4.强盗算法:LinUCB vs Thompson;不同ε。
5.任务变更:1/天 vs 2/天访问。
6.锦标赛微目标:一对两平行。
11)任务和锦标赛任务模板(JSON)
任务(个性化):json
{
"mission_id": "m.s3.var.playtime.diverse.001,标题:"打开三个世界","segment_hint":"collector","difficulty":"medium","requirements":[
{"type":"provider_diversity","providers":3,"window_min":30}, {"type":"bet_range","min":0.2,"max":1.0}
], "pity": {"soft_delta":0.02,"cap":0.4,"hard_after_attempts":30}, "rewards": {"tokens": 12, "cosmetic_drop": {"rarity":"Rare","p":0.12}}, "caps": {"daily_user_missions": 3, "economy_token_cap": 150}
}
锦标赛微目标:
json
{
"task_id": "t.s3.qualifier.pacing.tempo", "context": {"league":"Gold","time_slot":"evening"}, "goal": {"type":"pace_control","max_spins_per_min":45,"duration_min":20}, "vip_neutral": true, "rewards": {"season_points": 120}, "fairness": {"max_value_equivalence": true}
}
12)生产伪代码(上下文强盗)
python上下文:段、时间、设备、最近的TTC、RG标志context=build_context (user_id)
candidates = fetch_candidate_missions(segment=context.segment)
candidates = compliance_filter(candidates, context.geo, context.rg)
scored = [(m, propensity_score(m, context)) for m in candidates]
topK = top_by_score(scored, k=5)
匪徒选择"手"(arm)
chosen = contextual_bandit.choose_arm(topK, context)
复杂度调制+验证发布预算personalized=adjust_difficulty (chosen, context)
if not economy_budget_ok(personalized):
personalized = degrade_reward(personalized)
log_decision(user_id, context, personalized)
deliver(personalized)
13) UX模式
透明度: "适合你的风格:30-40分钟,3个供应商,胜利-罕见的化妆品下降。"
控制:更改任务(cooldown)按钮,拨号器"禁用个性化"。
流畅性:难度指标,时间评估,具有TTC预测的进度栏。
安静的VFX:成功的简短动画;失败的支架-+碎片/进度pity。
14)发布计划
1.MVP(3-5周):任务聚类+推进剂;静态锦标赛任务;排放帽;透明度屏幕。
2.v0.9:上下文匪徒;改变任务;锦标赛中的微型目标;完整的RG监护人。
3.v1.0:任务的RL链;社会目标;视觉收藏;"诚实"报告和日志审核。
4.接下来:季节性模式轮换,复古复古化妆品,与供应商交叉促销。
15)启动前的Checlist
- 个性化不会影响RTP/数学优势。
- 发射帽和任务日限。
- Pity timers和确定性里程碑已配置。
- "如何工作"屏幕+reason codes。
- RG策略:暂停、限制、"禁用个性化"选项。
- 反借口:需求的变异性,节奏帽,决策日志审核。
- A/B计划和具有成功阈值的目标KPI列表。
AI个性化不是"更难",而是更聪明的:任务和锦标赛任务适应玩家的风格,但保持诚实和安全,发射在预算中,规则是透明的。聚类+propensity提供了基础,上下文土匪优化了展示,RL改善了链条-所有这些仅在"我们如何准确地选择目标"的清晰接头,RG守护者和可理解的沟通中起作用。