有一個(gè)比喻非常恰當(dāng):產(chǎn)品如同蓄水池,用戶好比池中之水。池子中每時(shí)每刻都有新用戶源源不斷地加入,也有一部分用戶選擇離開。
如果用戶流失超過新用戶的補(bǔ)給,且速度越來越快、規(guī)模越來越大時(shí),產(chǎn)品如若不警惕,蓄水池遲早會(huì)干涸。
這是用戶流失研究的背景。產(chǎn)品階段不同,重心也會(huì)從拉新轉(zhuǎn)移到留存,對(duì)于一個(gè)成熟的產(chǎn)品和飽和的市場(chǎng)而言,獲取一個(gè)新用戶的成本可能是留住一個(gè)老用戶的數(shù)倍,流失率的降低也意味著營(yíng)收的增加,在這種條件下,流失研究的價(jià)值是顯而易見的。
而研究流失用戶所面臨的主要問題,是如何衡量用戶流失的規(guī)模,重中之重是梳理清楚“流失用戶”和“流失率”的定義?;蛟S你腦海中早已經(jīng)羅列好了幾點(diǎn)困惑:
為了給流失一個(gè)明確、又能符合產(chǎn)品特征的定義,并且相對(duì)準(zhǔn)確地識(shí)別出可能流失的用戶,我們引入二元邏輯回歸作為定量流失研究的模型。
在模型中,我們將一段時(shí)間內(nèi)用戶的一系列行為特征數(shù)據(jù)(如在線天數(shù)、充值金額、積分等級(jí)、點(diǎn)擊次數(shù)……),代入二元邏輯回歸方程中,就可以計(jì)算出相應(yīng)的流失概率。
也可以用下圖數(shù)據(jù)采集與流失預(yù)測(cè)的時(shí)間窗口來理解這一過程。選擇產(chǎn)品中一部分老用戶,觀察和收集他們?cè)谝粋€(gè)月內(nèi)的行為數(shù)據(jù)(深藍(lán)色部分),通過這些數(shù)據(jù),我們可以預(yù)測(cè)其在未來一段時(shí)間內(nèi)(紅色部分)的流失與留存情況。
在預(yù)測(cè)周期 1 內(nèi)出現(xiàn)但周期 2 未出現(xiàn)的,說明在周期 2 內(nèi)流失了,如果兩個(gè)周期內(nèi)都沒有出現(xiàn),那么可能在觀察期內(nèi)就流失了,上述兩種都屬于流失;而周期 1 和周期 2 都有出現(xiàn)的用戶,則是留存用戶。
但是,在通過定量模型來研究流失的過程中,往往存在著幾個(gè)常見的誤區(qū):
一、數(shù)據(jù)僅為工具,產(chǎn)品理解貫穿始終
如何界定流失用戶,避免概念誤區(qū)
在構(gòu)建流失模型時(shí),通常以月作為分析和數(shù)據(jù)提取的周期,比如在上圖時(shí)間窗口中,以連續(xù)一個(gè)月沒有使用算作流失。但這種簡(jiǎn)單粗暴的劃分方法往往會(huì)帶來三方面的問題。
1、流失周期受用戶使用間隔決定,不同周期劃分影響用戶結(jié)構(gòu)比例
如果以 1 個(gè)月作為流失周期,那么十月出現(xiàn)但十一月沒有出現(xiàn)(藍(lán)色圓點(diǎn)代表出現(xiàn))的用戶在十一月流失了,而實(shí)際上,他在十二月又出現(xiàn)了,是一個(gè)回訪用戶(見回訪3),并沒有真實(shí)流失。
如果我們以 2 個(gè)月為周期,則“回訪3”的用戶在10~ 11 月, 12 月以后兩個(gè)周期內(nèi)都出現(xiàn)過,應(yīng)該是一個(gè)留存用戶。周期劃分對(duì)用戶流失界定有著直接影響。
2、如果簡(jiǎn)單以一個(gè)月為周期進(jìn)行用戶分類,回訪用戶過多(比如占總體15%),無法忽視且難以處理
無論以何種周期劃分,必然存在一定比例的回訪用戶,將回訪用戶作為缺失值、算作留存用戶或者作為流失用戶,均對(duì)模型準(zhǔn)確率有較大影響。
3、流失周期劃分會(huì)影響模型的準(zhǔn)確率與平衡性
如下表,以總樣本100w為例,分別以 4 周、 5 周、 6 周作為流失標(biāo)準(zhǔn),劃分出的流失和留存用戶是不同的,對(duì)應(yīng)的流失留存預(yù)測(cè)準(zhǔn)確率也不同。
流失周期過短,流失預(yù)測(cè)的準(zhǔn)確率低,因?yàn)槎x為流失的用戶中有大量實(shí)際留存的用戶,只是其使用間隔長(zhǎng)而已(比如以 1 周沒登錄就算流失,但實(shí)際上很多留存用戶2~ 3 周才登錄一次,也被劃分成流失用戶);同時(shí)周期過短,定義為留存的用戶實(shí)際上后來也會(huì)流失。
因此,不合理的周期造成預(yù)測(cè)準(zhǔn)確率低且不平衡,我們需要不斷嘗試周期劃分,在保證整體準(zhǔn)確率的情況下尋求流失與留存準(zhǔn)確率最佳的平衡點(diǎn),才能更為準(zhǔn)確地同時(shí)預(yù)測(cè)流失及留存情況。
如果流失準(zhǔn)確率有90%但留存只有50%,那么雖然我們預(yù)測(cè)流失的用戶幾乎都是真正會(huì)流失的,但可能只識(shí)別出了總體用戶中一小部分流失用戶,還有大量流失用戶被劃分在了留存用戶中,導(dǎo)致留存準(zhǔn)確率過低。
在這種情況下,選擇恰當(dāng)?shù)亩x方法顯得至關(guān)重要。通過查閱資料,我們發(fā)現(xiàn)對(duì)流失比較經(jīng)典的定義是“一段時(shí)間內(nèi)未進(jìn)行關(guān)鍵行為的用戶”,關(guān)鍵點(diǎn)在于如何界定時(shí)間周期(流失周期)和關(guān)鍵行為(流失行為)。
我們選擇經(jīng)典的拐點(diǎn)理論來作為周期界定的參考:
用戶回訪率拐點(diǎn)(用戶回訪率 = 回訪用戶數(shù) ÷ 流失用戶數(shù) × 100%)
同時(shí)結(jié)合對(duì)產(chǎn)品的理解,選擇“主動(dòng)登錄”這一行為作為是否流失的關(guān)鍵行為。
但經(jīng)典的理論也會(huì)遇到尷尬:沒有出現(xiàn)拐點(diǎn)怎么辦?
回訪率拐點(diǎn)可能與產(chǎn)品存在一個(gè)平臺(tái)期(瓶頸)有關(guān):用戶/玩家處在哪些等級(jí)可能流失加劇,或者是在線時(shí)長(zhǎng)達(dá)到多少會(huì)產(chǎn)生疲倦加劇流失,哪些角色的用戶更容易流失等等。
比如游戲,游戲的特點(diǎn)是:回合、關(guān)卡、任務(wù)、日常與升級(jí),但這與一些產(chǎn)品長(zhǎng)周期、長(zhǎng)間隔的用戶使用行為模式并不相同。
在沒有拐點(diǎn)的情況下,可以依據(jù)產(chǎn)品經(jīng)驗(yàn)或結(jié)合模型預(yù)測(cè)準(zhǔn)確率判斷,一般產(chǎn)品的回訪率5%-10%,不管劃分多長(zhǎng)的時(shí)間周期都會(huì)存在回訪,誤差不可避免。
二、指標(biāo)沒選好,模型調(diào)到老
如何優(yōu)化數(shù)據(jù)模型,避免方法誤區(qū)
搭建數(shù)據(jù)模型的關(guān)鍵在于行為數(shù)據(jù)的選擇,這也是最耗時(shí)耗力的地方。在建立模型之前,有必要和數(shù)據(jù)&開發(fā)的同事來一次促膝談心,對(duì)數(shù)據(jù)庫(kù)和埋點(diǎn)的情況進(jìn)行摸底,再次明確一些數(shù)據(jù)概念的操作化定義,避免發(fā)生誤解。
比如,誤解通常來自于以下幾點(diǎn):
可問題往往沒有那么簡(jiǎn)單,即使定義得再精確細(xì)致,模型的準(zhǔn)確性也可能不高。如果明白“管中窺豹”這個(gè)成語(yǔ)的意思,你很可能找到了答案。
通常我們以一個(gè)月為周期,提取用戶一個(gè)月內(nèi)的行為數(shù)據(jù)。但是產(chǎn)品不同,用戶操作習(xí)慣是大相徑庭的,有的產(chǎn)品 1 個(gè)月的時(shí)間周期太短,就難以形成足夠的行為數(shù)據(jù),好比是盲人摸象,摸到一條尾巴要預(yù)測(cè)出是一頭大象,的確很有難度。
另一方面,時(shí)間過短部分用戶尚在好奇和探索階段,沒有完全沉淀下來成為真正的用戶。反之,如果一味增加提取數(shù)據(jù)的時(shí)間周期,項(xiàng)目執(zhí)行的時(shí)間成本也會(huì)水漲船高;同時(shí),等提取周期結(jié)束,一些用戶早已流失,即使預(yù)測(cè)成功也難以挽回。
模型的準(zhǔn)確性依賴于數(shù)據(jù)提取周期問題的解決,我們需要一個(gè)用戶多長(zhǎng)時(shí)間的數(shù)據(jù)才能準(zhǔn)確預(yù)測(cè)該用戶下一階段的行為?
通過二元邏輯回歸的ROC曲線可以進(jìn)行評(píng)估,如下圖, 6 周的數(shù)據(jù)明顯優(yōu)于 1 個(gè)月(曲線右下方面積越大預(yù)測(cè)準(zhǔn)確性越高),而 2 個(gè)月的數(shù)據(jù)只略優(yōu)于 6 周,幅度有限,且時(shí)間成本較大,因此選擇 6 周作為數(shù)據(jù)提取的周期。
第二個(gè)難點(diǎn)在于流失原因的分析,也即流失影響因素的選擇。選擇一些具有流失用戶典型特征的指標(biāo)維度作為自變量,一步步嘗試修改指標(biāo),迭代模型。
如果前期流失模型準(zhǔn)確性低,并且流失用戶的特征與模型的特征不符,則需要尋找新的流失因素,并納入流失預(yù)警模型的提取數(shù)據(jù)點(diǎn)。指標(biāo)的選擇,一方面需要不斷試錯(cuò),最主要還是基于對(duì)業(yè)務(wù)的理解。
建模過程中的主要問題是模型預(yù)測(cè)準(zhǔn)確性低,我們可以通過檢查是否沒有納入典型的指標(biāo)維度、是否存在多重共線性來有的放矢地加以解決,有時(shí)不顯著的原因可能出乎意料——比如產(chǎn)品功能更新了,或者年底積分折半了,拿到的是被污染過的數(shù)據(jù)而不自知。
三、不止預(yù)測(cè):模型只是方法而非終點(diǎn)
如何支持用戶運(yùn)營(yíng),避免應(yīng)用誤區(qū)
通過流失預(yù)警模型,我們可以獲得產(chǎn)品一系列功能模塊或指標(biāo)對(duì)流失留存的影響因子,并計(jì)算出每個(gè)用戶的流失概率。通過影響因子,我們可以對(duì)流失原因有所了解,在此基礎(chǔ)上進(jìn)行深入研究和確認(rèn),結(jié)合用戶反饋的頻率、專家意見等確定改版的優(yōu)先級(jí)。
計(jì)算流失概率只是一種方法,而不是研究的最終目的,流失研究也不能到此就淺嘗輒止。區(qū)分出可能流失的用戶是為了提高挽留策略的針對(duì)性,提高效率與減少成本,實(shí)現(xiàn)精細(xì)化運(yùn)營(yíng)——這也是流失模型的核心價(jià)值所在。
比如,從用戶使用的輕重程度出發(fā)(如上圖),在通過模型計(jì)算出用戶未來的流失概率后,將使用App的頻率和時(shí)長(zhǎng)作為用戶輕重度的劃分標(biāo)準(zhǔn),結(jié)合用戶流失留存預(yù)期,將用戶劃分為高價(jià)值、重點(diǎn)發(fā)展、重點(diǎn)轉(zhuǎn)化、有待挽留等幾種類型,分析每個(gè)類型用戶不同的行為特點(diǎn)和使用痛點(diǎn),采取針對(duì)性的運(yùn)營(yíng)策略。
當(dāng)然,流失模型也可結(jié)合付費(fèi)維度進(jìn)行研究。先篩選出極有可能將會(huì)流失的用戶,再根據(jù)購(gòu)買頻次和付費(fèi)金額來進(jìn)行細(xì)分。
比如從未付費(fèi)的用戶可通過優(yōu)惠券、促銷活動(dòng)或超低價(jià)商品吸引回訪、促成首單購(gòu)買;少量付費(fèi)且客單價(jià)低的用戶可以精準(zhǔn)推送符合個(gè)性化偏好的商品,或者推薦符合該用戶消費(fèi)層次的超值商品;多次付費(fèi)的老用戶,可以增加會(huì)員專屬優(yōu)惠,通過回饋激勵(lì)增強(qiáng)用戶粘性,延長(zhǎng)使用周期。
以上只是流失模型的兩個(gè)層面的應(yīng)用,在不同項(xiàng)目中還可以結(jié)合多種方式對(duì)用戶進(jìn)行精細(xì)化運(yùn)營(yíng)。模型準(zhǔn)確性高的話,可以用更少的成本、對(duì)用戶更少的干擾來留住更有價(jià)值的用戶。
當(dāng)然,提及用戶細(xì)分、精細(xì)化運(yùn)營(yíng)和產(chǎn)品功能體驗(yàn)的優(yōu)化,又離不開對(duì)用戶的理解和對(duì)產(chǎn)品業(yè)務(wù)的積淀。和這種不斷的積淀一樣,流失預(yù)警模型也需要不斷地修正和迭代,以適應(yīng)產(chǎn)品發(fā)展的需求。
以模型作為一種研究技術(shù),以對(duì)用戶和業(yè)務(wù)的理解積淀作為基礎(chǔ),來一起推動(dòng)產(chǎn)品迭代和運(yùn)營(yíng)活動(dòng)的落地,這兩者都是用戶研究的價(jià)值所在。
本文鏈接: http://www.yixieshi.com/89757.html (轉(zhuǎn)載請(qǐng)保留)