“千人千面”人群推薦算法解讀,正確認(rèn)識人群!-
2023-04-12|19:26|發(fā)布在分類 / | 閱讀:6266
想把千人千面的工作原理講透徹一些,但是又怕學(xué)術(shù)性太強(qiáng),絕大多數(shù)讀者讀不懂,所以整理了很久,
決定用學(xué)術(shù)性內(nèi)容+通俗易懂的場景講解方式讓大家理解。在日常與粉絲的交流中,我發(fā)現(xiàn)很多人對千人千面的理解都是錯(cuò)誤的,這里舉幾個(gè)典型的錯(cuò)誤理論供大家參考:
1.補(bǔ)單是可以控制精準(zhǔn)人群的,也就是所謂的精刷。
2.補(bǔ)單的時(shí)候,通過提前收藏,加購,第二天或更長時(shí)間再成交,會(huì)讓鏈接人群更精準(zhǔn)。
3.只要我用女性賬號來補(bǔ)單,就是女性標(biāo)簽,用寶媽賬號來刷,就是寶媽標(biāo)簽。
4.通過直通車人群溢價(jià)來補(bǔ)單就會(huì)避免人群不精準(zhǔn)問題。
5.人群精準(zhǔn)會(huì)讓鏈接的權(quán)重更高。
6.在不登錄賬號的情況下,我的搜索結(jié)果是沒有千人千面的。
以上的論點(diǎn),在很多人心中都根深蒂固了,大多數(shù)人對人群標(biāo)簽的理解就止步于這里了,因?yàn)橐恍C(jī)構(gòu),民間的傳播,所以造成類似這樣的說法大行其道(大家會(huì)發(fā)現(xiàn)上面的舉例大多跟補(bǔ)單有關(guān),其實(shí)這也是想告訴大家補(bǔ)單是不可能保證人群的精準(zhǔn)性的),但是,這些說法確實(shí)都是錯(cuò)的??赡艽蠹矣X得不可思議,那這些論點(diǎn)究竟是怎么錯(cuò)的呢,我們從推薦算法原理本身來給大家講解,讓大家認(rèn)識什么是真正的千人千面,相信大家可以自行找到答案(如果看完文章還不能理解,可以再問我)。
說到千人千面,人群標(biāo)簽這些名詞,不得不說到推薦算法,這個(gè)數(shù)學(xué)與信息技術(shù)完美結(jié)合的偉大發(fā)明,它是基于用戶行為的大量樣本統(tǒng)計(jì)和協(xié)同過濾,對用戶需求進(jìn)行預(yù)測的技術(shù)。從買家角度而言,這種技術(shù)會(huì)讓用戶實(shí)現(xiàn)所想即所得,從賣家角度而言,可以擴(kuò)展競爭維度,減少單一維度的競爭壓力,讓產(chǎn)品多樣化,百花齊放。------------好,這只是個(gè)千人千面的概念,可能不太好理解,下面我們從場景中理解一下千人千面的存在。
相信大家都有這樣的體驗(yàn),比如你坐月子的老婆給你打電話說家里的尿不濕不夠用了,打開淘寶,首頁就出現(xiàn)了尿不濕的推薦;比如你和朋友在微信聊汽車,微信朋友圈就開始推汽車廣告。這些現(xiàn)象讓我們感覺像個(gè)人信息泄露一樣。其實(shí)像淘寶,微信這些工具,是不會(huì)竊取你的個(gè)人隱私的,是你的行為數(shù)據(jù)讓平臺知道你的需求。我們以淘寶的千人千面舉例,在買家用戶注冊賬號的時(shí)候,需要填寫個(gè)人的性別,身份證號等信息,很多人認(rèn)為這就是千人千面的依托數(shù)據(jù),但這些數(shù)據(jù)并不可靠,且數(shù)據(jù)過于基礎(chǔ)。淘寶會(huì)采集你更多的行為數(shù)據(jù),比如你使用過的手機(jī),上過的app,看過的新聞,打車的頻率,發(fā)紅包的金額次數(shù),欠銀行的貸款等等,這些都會(huì)構(gòu)成你個(gè)人數(shù)以萬計(jì)的事實(shí)標(biāo)簽。標(biāo)簽的采集是很容易的,難在模型的建立,如何通過標(biāo)簽?zāi)P蛠頊?zhǔn)確的預(yù)測用戶的需求。我們拿淘寶首頁內(nèi)容板塊為例,常規(guī)的行為推薦算法是類似這樣的公式:內(nèi)容訪問權(quán)重=行為權(quán)重*時(shí)間權(quán)重*衰減因子,行為權(quán)重:我們點(diǎn)擊一篇內(nèi)容,回復(fù),點(diǎn)贊等行為,都會(huì)計(jì)入行為權(quán)重,根據(jù)平臺積累的大數(shù)據(jù),計(jì)算出了不同類目不同產(chǎn)品下的各種操作行為權(quán)重分?jǐn)?shù),在用戶進(jìn)行回復(fù),點(diǎn)贊,收藏等行為時(shí)進(jìn)行權(quán)重加分;時(shí)間權(quán)重:停留時(shí)間越長,時(shí)間權(quán)重也會(huì)越高;衰減因子:用戶的單次行為不能作為用戶喜好的直接評定,隨著時(shí)間的推移權(quán)重也會(huì)慢慢衰減。由這樣三個(gè)權(quán)重維度的綜合計(jì)算得到了我們的內(nèi)容訪問權(quán)重,在我們多次訪問同類型內(nèi)容時(shí),每次都會(huì)獲得對應(yīng)的內(nèi)容訪問權(quán)重,平臺對這些權(quán)重進(jìn)行累加,然后利用神經(jīng)網(wǎng)絡(luò)的閾值函數(shù)(Sigmoid函數(shù))進(jìn)行標(biāo)準(zhǔn)化,得到一個(gè)閾值為(0,1)的結(jié)果,通常推薦算法標(biāo)準(zhǔn)化過程是對Sigmoid函數(shù)的變形公式,得出一個(gè)閾值位0-10的結(jié)果,也就是我們所說的質(zhì)量分(直通車的質(zhì)量分也是以這樣的方法計(jì)算來的哦),權(quán)重(或說質(zhì)量分)越高,內(nèi)容板塊推薦類似內(nèi)容的比例和頻率就會(huì)越高,這就是行為推薦算法(你的行為影響了你),值得一提的是,世界上所有推薦算法的處理過程都是類似如此的,沒有太大差異。這個(gè)過程,也就是大家常說的打標(biāo)簽(比如我們搜索看過一個(gè)產(chǎn)品后,猜你喜歡就會(huì)推薦類似的產(chǎn)品,并且看過多種產(chǎn)品,猜你喜歡推薦的頻次是不一樣的)。
但是這只是個(gè)人的行為推薦,比如我們在補(bǔ)單的時(shí)候,讓刷手提前瀏覽一下某個(gè)產(chǎn)品,第二天再去搜索,位置就會(huì)很靠前,很多人會(huì)想當(dāng)然的認(rèn)為這樣會(huì)提高產(chǎn)品權(quán)重,其實(shí)只是這一個(gè)刷手看到的位置變高了,并不代表其他用戶瀏覽結(jié)果下你的鏈接排名也會(huì)變高,是補(bǔ)單者的一種錯(cuò)覺、誤區(qū)!
行為推薦結(jié)果本身是有一定的應(yīng)用場景的,比如我們在使用推廣工具(如直通車)時(shí)有瀏覽未購買的人群標(biāo)簽,這些場景下,使用行為推薦結(jié)果是有意義的,前提你的訪客是真實(shí)的,而不是刷手,否則系統(tǒng)只會(huì)讓你的刷手看的到你的鏈接,真實(shí)用戶依然是看不到的。除此之外,我們更希望獲得的是廣大的新客,那在新客獲得過程中
,推薦算法又是如何發(fā)揮作用的呢?
大家在開直通車的時(shí)候都知道,官方給提供了一系列人群包,比如年齡,性別等等,這些是作為用戶的基礎(chǔ)數(shù)據(jù)呈現(xiàn)的,但是,
前面講到的行為推薦結(jié)果難道就對千人千面沒有作用嗎?顯然這是不可能的。平臺會(huì)通過用戶行為采集用戶偏好,來把有相似需求的人整理到一起,進(jìn)行關(guān)聯(lián)推薦。下面我們說一下工作原理:我們每個(gè)人的行為偏好,都會(huì)以權(quán)重的形式記錄在云平臺,而一個(gè)人是會(huì)有很多偏好的,系統(tǒng)會(huì)把你的各種偏好轉(zhuǎn)化成特征向量,比如你的消費(fèi)能力,興趣,社交偏好權(quán)重分別是3,6,7,那么你的偏好值會(huì)作為一個(gè)坐標(biāo)點(diǎn)r(3,6,7)被存儲(chǔ)在多維空間的數(shù)據(jù)模型中,然后把每個(gè)人的坐標(biāo)帶入余弦公式中,就可以計(jì)算出特征相似的人了。這樣平臺可以輕易的根據(jù)與你特征相似的人的購買行為來對你的瀏覽結(jié)果進(jìn)行推薦,即使你沒有過瀏覽行為,也是會(huì)給你推薦一些產(chǎn)品或內(nèi)容的。這種推薦算法是要遠(yuǎn)比行為推薦給你的結(jié)果更有意義且更準(zhǔn)確的,我們稱為關(guān)聯(lián)推薦算法(你的行為,影響了別人,別人的行為,也影響了你)。我們平時(shí)開直通車圈人群,搜索購買行為影響的人群,都是基于關(guān)聯(lián)推薦算法的,而關(guān)聯(lián)推薦算法的前提是行為推薦算法。
然而,用戶的行為特征與用戶的基礎(chǔ)數(shù)據(jù)是沒有直接關(guān)系的,比如我們在開直通車的時(shí)候,傳統(tǒng)的人群包里都是年齡,性別等這些維度的屬性,而不是特征屬性,而我們每個(gè)用戶在產(chǎn)生行為的過程中,系統(tǒng)也并沒有直接跟用戶填寫的基礎(chǔ)數(shù)據(jù)做直接關(guān)聯(lián),我們用戶的基礎(chǔ)數(shù)據(jù)(年齡,性別等)為顯式數(shù)據(jù),稱系統(tǒng)統(tǒng)計(jì)的用戶行為特征數(shù)據(jù)為隱式數(shù)據(jù),平臺會(huì)根據(jù)大部分已知的顯示數(shù)據(jù)與他們的隱式數(shù)據(jù)進(jìn)行關(guān)聯(lián),然后訓(xùn)練未知的用戶數(shù)據(jù),來預(yù)測用戶的顯式數(shù)據(jù)是否正確,比如通過平臺內(nèi)所有相同特征的人來預(yù)測這些人是不是都是男性,大部分成熟平臺這樣的預(yù)測結(jié)果準(zhǔn)確度現(xiàn)在都在90%以上(換句話說,你用戶填寫的性別年齡數(shù)據(jù),平臺并不會(huì)當(dāng)真,而是通過大數(shù)據(jù)確定的)!這樣,再把顯式數(shù)據(jù)作為商家可選標(biāo)簽用于選擇和購買廣告等,比如直通車選性別,年齡人群這些,是商家可選的顯式數(shù)據(jù),系統(tǒng)會(huì)對應(yīng)找出這些人群的隱式數(shù)據(jù)關(guān)系,來推薦給你真正想要推薦的用戶。這也解答了開始我們提出的一個(gè)問題,并不是你用寶媽人群補(bǔ)單,就能打上寶媽人群的標(biāo)簽!
到這里,推薦算法的原理和在平臺內(nèi)的使用場景,我們就已經(jīng)基本掌握了,因?yàn)檫@篇內(nèi)容學(xué)術(shù)性較強(qiáng),可能很多人讀到這里已經(jīng)叫苦不迭了,沒辦法,就算大家讀不懂,我也要先把原理給大家講清楚,對于做過算法工程師的小伙伴來說,應(yīng)該會(huì)好讀的多。不過沒關(guān)系,就算前面的內(nèi)容你都沒看懂,也不要緊,大家記住后面的內(nèi)容就好了!
首先,一切補(bǔ)單的行為都是無法模擬系統(tǒng)對人群偏好的算法的,所以大家不要指望補(bǔ)單的同時(shí)還能兼顧人群的精準(zhǔn),這是永遠(yuǎn)都不可能實(shí)現(xiàn)的!第二,用戶標(biāo)簽是被動(dòng)形成的,商品標(biāo)簽也是如此,在用戶的購買過程中,才慢慢形成標(biāo)簽,千人千面固然重要,但是也不要把它過于神化,它只是對概率論與數(shù)理統(tǒng)計(jì)學(xué)科的應(yīng)用過程,你的產(chǎn)品符合什么樣的人群,是打娘胎里就定下的,而不是你能通過一些技術(shù)手段來改變的,你要做的不是找到更好的人群,而是找到匹配你產(chǎn)品的人群,這個(gè)人群是客觀存在的。
第三,人群標(biāo)簽在競價(jià)系統(tǒng)中(比如搜索結(jié)果)并不是一種權(quán)重,競價(jià)權(quán)重本身還是依賴產(chǎn)品產(chǎn)值的,只是比如在一個(gè)類目中有幾款產(chǎn)品是符合同一種人群的,系統(tǒng)就會(huì)給這類人群優(yōu)先推薦這幾款產(chǎn)品,那么我們開直通車的時(shí)候,當(dāng)這類用戶搜索產(chǎn)品的一瞬間,系統(tǒng)會(huì)根據(jù)我們跟競品的出價(jià)關(guān)系來決定先把哪個(gè)產(chǎn)品展現(xiàn)給用戶而已。
講到這里突然想到一點(diǎn),很多類目的補(bǔ)單比例是很大的,那么在這些類目中,用戶的特征收集勢必是有很大誤差的,所以這種時(shí)候哪怕我們通過付費(fèi)開的人群是最適合這個(gè)產(chǎn)品的人群,也不一定能得到最好的數(shù)據(jù),所以很多商家會(huì)感覺補(bǔ)單多的類目,做付費(fèi)推廣好難。其實(shí)大家理解了原理后,只要知道,被動(dòng)的去測試所有的人群條件,找到表現(xiàn)最好的人群來做就好了,而不要通過主觀思想認(rèn)為我的產(chǎn)品一定是男性標(biāo)簽,或者一定是高消費(fèi)群體標(biāo)簽,這樣在這種類目里,你的數(shù)據(jù)就能優(yōu)化的好了。
推薦閱讀:
2023年最火爆的引流玩法有哪些?
淘寶詳情頁怎么做?教你寶貝轉(zhuǎn)化立即翻倍
寶貝詳情頁怎么做?教你寶貝轉(zhuǎn)化立即翻倍
這個(gè)問題還有疑問的話,可以加幕.思.城火星老師免費(fèi)咨詢,微.信號是為: msc496。
難題沒解決?加我微信給你講!【僅限淘寶賣家交流運(yùn)營知識,非賣家不要加我哈】>
更多資訊請關(guān)注幕 思 城。
別默默看了 登錄\ 注冊 一起參與討論!