AI如何個性化任務和錦標賽挑戰
1)為什麼要個性化
任務和錦標賽任務的AI個性化:- 提高相關性(「音調」任務,沒有無聊的格林);
- 減少阻力(玩家輪廓下的復雜性和持續時間);
- 改善重建和參與(可見進展,可理解的目標);
- 保護經濟(受控頒獎和條件誠實)。
關鍵:個性化和公平的平衡--個人目標不應該在遊戲中產生數學優勢。
2)數據信號(模型輸入)
行為:插槽/提供者類型,平均費率,旋轉速度,會話長度,白天時間,輸入頻率。
進度:級別/CR,完成過去的任務,錦標賽的成功/失敗,streak'y。
財務:存款/結算(匯總,沒有敏感細節),對獎金的敏感性。
社會:參與聊天/活動、剪輯/回放、社區反應(如果有)。
上下文:設備、登錄通道、內容/提供商地理限制。
RG信號:時間限制/存款,傾向於長會話-降低復雜性和軟停頓。
3)模型堆棧
1.聚類(未聚類)
K-Means/DBSCAN/HDBSCAN →行為細分:「短跑選手」,「收藏家」,「錦標賽老板」,「品牌忠誠於提供商」。
用法:選擇分區下方的基本「任務框架」。
2.Propensity得分(超級)
目標:在T窗口後完成任務X的概率,參加比賽的可能性/完成。
模型:Gradient Boosting(GBDT),邏輯回歸,表變形金剛。
3.上下文匪徒(contextual bandits)
目的:通過探索/探索控制,在線選擇任務類型和復雜性。
方法:LinUCB/Thompson采樣。
4.RL/政策學習(可選)
目的:優化任務/任務(鏈)序列,以保持玩家不過熱。
限制:嚴格的安全保障(見第7條)。
4)數據線和銷售解決方案
事件收集:事件巴士(Kafka/Redpanda),模式:旋轉,session_start/end,mission_progress,tournament_result。
Fichering:1h/24h/7d框架;總量(利率中位數,速度方差,提供商的多樣性)。
配置/模型更新:每1-7天離線一次;每個環節的在線評分+土匪的部分補習。
發行限制:誠實政策(評級限制,獎勵帽,RG限制)。
決策的邏輯:顯示了誰/何時/哪種策略變體,機會,預期的復雜性,實際結果。
5)任務生成器(決策邏輯)
1.部分:群集→基本任務籃子(流派,持續時間)。
2.合成過濾器:提供商,地理,RG限制(包括白天時間限制)。
3.Propensity評分:根據完成概率和預期價值(EV還原)對候選人進行排名。
4.上下文強盜:選擇1-2名具有ε排名的最佳候選人。
5.難度調整:將目標(自旋/投註/時間)調整為外圍窗口(例如工作日晚上/周末)。
6.發射帽:季節性代幣/化妝品預算檢查。
7.有意義的選擇:提供1個備用任務(X小時一次「更改」按鈕)。
6)個性化比賽任務
根據MMR和歷史選擇聯賽/分區-獨立於VIP(請參閱上一篇文章)。
比賽中的個人微目標:「扮演3個提供者」,「保持節奏≤N旋轉/分鐘」,「前X%的徽章」-繞過螺旋線。
靈活的參與窗口:玩家更頻繁在線的時間段;AI建議排位賽。
獲獎的輪廓軌道:化妝品和令牌,考慮到稀有性,但沒有增加RTP/矩陣。
7)AI的誠實規則,責任和限制
Safety-constreint:每天最多N個人的任務;禁止在RG疲勞信號下增加復雜性。
透明度:「如何選擇任務」屏幕:細分,上下文,防止失敗(pity timers),獎勵帽。
公平:同樣的獎項上限;個性化改變了路徑而不是最終價值。
Responsible Gaming:軟停頓,「休息」建議,日間限制-嵌入在息肉中。
隱私:僅限於單元;超出調控最低限度的模型焊料中沒有PII。
8)反濫用和反遊戲
單一周期設計:任務周期性高的重復→需要變異(提供者/出價/時間)。
節奏帽:不超過X任務/天,在「快速」任務之間冷靜下來。
復雜警衛隊:下限/上限;禁止激增。
錦標賽中的緊身:網絡/行為簽名,大師聯賽中的隨機KYC支票。
日誌審核:決策的可解釋性(reason codes:細分,propensity, bandit-arm)。
9)成功指標
Uplift D7/D30個性化與基礎。
任務完成率和Median時間完成率(TTC)。
Stickiness(DAU/MAU),Avg Session Length(帶有RG監護人)。
獎項分配的Gini(相似努力的均勻性)。
「不公正」和Mute/Opt-out Rate個性化的Complaint Rate。
ROI 獎/GGR獎是促銷經濟的可持續性。
探礦成本土匪和Regret-用於配置ε/湯普森采樣。
10)發射的A/B模式
1.任務類型:提供者vs流派。
2.任務長度:短(≤15分鐘)vs中等(30-40分鐘)。
3.Pity timers:在相同的p₀下硬對軟。
4.強盜算法:LinUCB vs Thompson;不同ε。
5.任務變更:1/天 vs 2/天訪問。
6.錦標賽微目標:一對兩平行。
11)任務和錦標賽任務模板(JSON)
任務(個性化):json
{
"mission_id": "m.s3.var.playtime.diverse.001,標題:"打開三個世界","segment_hint":"collector","difficulty":"medium","requirements":[
{"type":"provider_diversity","providers":3,"window_min":30}, {"type":"bet_range","min":0.2,"max":1.0}
], "pity": {"soft_delta":0.02,"cap":0.4,"hard_after_attempts":30}, "rewards": {"tokens": 12, "cosmetic_drop": {"rarity":"Rare","p":0.12}}, "caps": {"daily_user_missions": 3, "economy_token_cap": 150}
}
錦標賽微目標:
json
{
"task_id": "t.s3.qualifier.pacing.tempo", "context": {"league":"Gold","time_slot":"evening"}, "goal": {"type":"pace_control","max_spins_per_min":45,"duration_min":20}, "vip_neutral": true, "rewards": {"season_points": 120}, "fairness": {"max_value_equivalence": true}
}
12)生產偽代碼(上下文強盜)
python上下文:段、時間、設備、最近的TTC、RG標誌context=build_context (user_id)
candidates = fetch_candidate_missions(segment=context.segment)
candidates = compliance_filter(candidates, context.geo, context.rg)
scored = [(m, propensity_score(m, context)) for m in candidates]
topK = top_by_score(scored, k=5)
匪徒選擇「手」(arm)
chosen = contextual_bandit.choose_arm(topK, context)
復雜度調制+驗證發布預算personalized=adjust_difficulty (chosen, context)
if not economy_budget_ok(personalized):
personalized = degrade_reward(personalized)
log_decision(user_id, context, personalized)
deliver(personalized)
13) UX模式
透明度: 「適合你的風格:30-40分鐘,3個供應商,勝利-罕見的化妝品下降。」
控制:更改任務(cooldown)按鈕,撥號器「禁用個性化」。
流暢性:難度指標,時間評估,具有TTC預測的進度欄。
安靜的VFX:成功的簡短動畫;失敗的支架-+碎片/進度pity。
14)發布計劃
1.MVP(3-5周):任務聚類+推進劑;靜態錦標賽任務;排放帽;透明度屏幕。
2.v0.9:上下文匪徒;改變任務;錦標賽中的微型目標;完整的RG監護人。
3.v1.0:任務的RL鏈;社會目標;視覺收藏;「誠實」報告和日誌審核。
4.接下來:季節性模式輪換,復古復古化妝品,與供應商交叉促銷。
15)啟動前的Checlist
- 個性化不會影響RTP/數學優勢。
- 發射帽和任務日限。
- Pity timers和確定性裏程碑已配置。
- 「如何工作」屏幕+reason codes。
- RG策略:暫停、限制、「禁用個性化」選項。
- 反借口:需求的變異性,節奏帽,決策日誌審核。
- A/B計劃和具有成功閾值的目標KPI列表。
AI個性化不是「更難」,而是更聰明的:任務和錦標賽任務適應玩家的風格,但保持誠實和安全,發射在預算中,規則是透明的。聚類+propensity提供了基礎,上下文土匪優化了展示,RL改善了鏈條-所有這些僅在「我們如何準確地選擇目標」的清晰接頭,RG守護者和可理解的溝通中起作用。