幕思城>電商行情>開店>開網(wǎng)店>你所不知道的千人千面,人群推薦算法深度解讀,正確認識人群!

    你所不知道的千人千面,人群推薦算法深度解讀,正確認識人群!

    2023-01-19|13:51|發(fā)布在分類 / 開網(wǎng)店| 閱讀:82

    去年夏天答應(yīng)你寫的那篇關(guān)于千人千面的文章,到現(xiàn)在才寫出來。



    很多人都在催。

    先跟大家道歉,因為我一直想基于算法層面來解釋,想把千人千面的工作原理解釋透徹,但又怕太學(xué)術(shù),讓大部分讀者看不懂,所以整理了半天,決定用學(xué)術(shù)內(nèi)容+通俗易懂的場景講解讓大家看懂。

    在日常和粉絲的交流中,我發(fā)現(xiàn)很多人對千人的理解是錯誤的。

    以下是一些典型的錯誤理論,供大家參考:1。

    刷榜可以控制精準人群,稱為細刷。

    2.刷單的時候會通過提前收藏,添加,第二天或者更長時間交易,讓鏈接人群更加精準。

    3.只要我用女性賬號刷單,就是女性標簽。

    如果我用馬的賬號刷的話,那就是馬的標簽。

    4.通過直通車人群溢價刷單,會避免人群不準確的問題。

    5.人群的精準性會讓鏈接的權(quán)重更高。

    6.不登錄我的賬號,我的搜索結(jié)果也不是幾千人。

    以上論點在很多人心中根深蒂固,大多數(shù)人對人群標簽的理解也就止于此。

    因為一些機構(gòu)和非政府組織的傳播,類似這樣的說法非常流行(你會發(fā)現(xiàn),以上的例子大部分都和刷單有關(guān)。

    其實這是告訴你,刷單不能保證人群的準確性)。

    但是,這些說法真的不對。

    你可能會覺得不可思議,那么這些論點怎么會錯呢?

    先從推薦算法本身的原理給你解釋一下,讓你知道什么是千人千面。

    相信你可以自己找到答案(如果看完文章還是看不懂,可以再問我)。

    說到千人千面,人們給這些名詞貼上標簽,就不得不說推薦算法,這是數(shù)學(xué)和信息技術(shù)完美結(jié)合的偉大發(fā)明。

    它是一種基于大量樣本統(tǒng)計和用戶行為協(xié)同過濾來預(yù)測用戶需求的技術(shù)。

    從買方的角度來看,這項技術(shù)將使用戶實現(xiàn)他們想要的。

    從賣家的角度,可以拓展競爭維度,減少單一維度的競爭壓力,讓產(chǎn)品多元化,百花齊放。

    好吧,這只是一個千人千面的概念,可能不太好理解。

    讓我們從現(xiàn)場來理解千人千面的存在。

    相信大家都有這樣的經(jīng)歷。

    比如你坐月子的老婆打電話給你,說家里的尿布不夠用。

    這些現(xiàn)象讓我們感覺像是個人信息的泄露。

    是你的行為數(shù)據(jù)讓平臺知道了你的需求。

    我們以淘寶的千人千面為例。

    買家注冊賬號時,需要填寫性別、身份證號等個人信息。

    很多人認為這是幾千人的數(shù)據(jù),但這些數(shù)據(jù)不靠譜,太基礎(chǔ)。

    ,這將構(gòu)成數(shù)萬人的事實標簽。

    收集標簽容易,建模型難。

    如何通過標簽?zāi)P途珳暑A(yù)測用戶需求?

    我們以淘寶首頁的內(nèi)容板塊為例。

    常規(guī)的行為推薦算法類似于這個公式:內(nèi)容訪問權(quán)重=行為權(quán)重*時間權(quán)重*衰減因子,行為權(quán)重:我們點擊一條內(nèi)容,回復(fù),喜歡等。

    ,這些都將包含在行為權(quán)重中。

    根據(jù)平臺上積累的大數(shù)據(jù),計算不同品類、不同產(chǎn)品下的各種運營行為的權(quán)重分值,在用戶回復(fù)、喜歡、喜歡、喜歡時添加權(quán)重分值;時間權(quán)重:停留時間越長,時間權(quán)重越高;衰減因子:用戶的單一行為不能作為用戶喜好的直接評價,權(quán)重會隨著時間逐漸降低。

    通過這三個權(quán)重維度的綜合計算,得到我們的內(nèi)容訪問權(quán)重。

    當我們多次訪問同一類型的內(nèi)容時,每次都會得到相應(yīng)的內(nèi)容訪問權(quán)重。

    平臺把這些權(quán)重累加起來,然后用神經(jīng)網(wǎng)絡(luò)的閾值函數(shù)(Sigmoid函數(shù))進行標準化,得到一個閾值為(0,1)的結(jié)果。

    通常推薦算法的標準化過程是Sigmoid函數(shù)的變形公式。

    得到一個閾值位為010的結(jié)果,也就是我們所說的質(zhì)量分(直通車的質(zhì)量分也是這樣計算的)。

    權(quán)重(或質(zhì)量分)越高,內(nèi)容板塊推薦相似內(nèi)容的比例和頻率越高。

    這就是行為推薦算法(你的行為影響你)。

    值得一提的是,世界上所有推薦算法的處理過程都差不多,沒有太大區(qū)別。

    這個過程通常被稱為標簽化(比如我們搜索閱讀了一個產(chǎn)品后,如果我們猜測你喜歡,就會推薦一個類似的產(chǎn)品,而閱讀了多種產(chǎn)品后,我們猜測你喜歡推薦的頻率是不一樣的)。

    但這只是個人行為推薦。

    比如我們刷單的時候,讓刷手提前瀏覽某個商品,第二天再搜索,位置會很高。

    很多人會想當然的認為這樣會增加產(chǎn)品的重量。

    其實只是這個刷手看到的位置變高了,并不代表你的鏈接排名在其他用戶的瀏覽結(jié)果下也會變高。

    是對刷手的錯覺和誤解!行為推薦結(jié)果本身就有一定的應(yīng)用場景。

    比如我們在使用推廣工具(比如直通車)的時候,瀏覽的是不被關(guān)注的人群標簽。

    在這些場景中,使用行為推薦結(jié)果是有意義的,前提是你的訪客是真實的,而不是刷手的。

    否則系統(tǒng)只會讓你的刷手看到你的鏈接,真正的用戶還是看不到。

    除此之外,我們想要得到的是廣大的新客戶。

    在獲得新客戶的過程中,推薦算法是如何工作的?

    大家在開直通車的時候都知道,政府提供了一系列的人群包,比如年齡,性別等等。

    ,作為用戶的基礎(chǔ)數(shù)據(jù)呈現(xiàn)。

    但是,上面說的行為推薦結(jié)果難道對千人千面沒有作用嗎?

    顯然,這是不可能的。

    平臺會通過用戶行為收集用戶偏好,梳理出有類似需求的人群,并做出相關(guān)推薦。

    先說它是如何工作的:我們每個人的行為偏好都會以權(quán)重的形式記錄在云平臺里,一個人會有很多偏好。

    系統(tǒng)會將你的各種偏好轉(zhuǎn)化為特征向量,比如你的消費能力、興趣、社交偏好權(quán)重分別為3、6、7。

    那么你的偏好值就會作為一個坐標點R (3,6,7)存儲在多維空間的數(shù)據(jù)模型中,然后通過這種方式,平臺就可以很容易地根據(jù)與你有相似特征的人的購買行為來推薦你的瀏覽結(jié)果。

    即使你沒有做過瀏覽行為,也會有人推薦給你一些產(chǎn)品或者內(nèi)容。

    這種推薦算法遠比你的行為推薦給你的結(jié)果更有意義,更準確。

    我們稱之為相關(guān)性推薦算法(你的行為影響別人,別人的行為也影響你)。

    通常開直通車的人,搜索受購買行為影響的人,都是基于關(guān)聯(lián)推薦算法,而關(guān)聯(lián)推薦算法的前提是行為推薦算法。

    但是,用戶的行為特征與用戶的基礎(chǔ)數(shù)據(jù)沒有直接關(guān)系。

    比如我們開直通車,傳統(tǒng)的人群包包含了年齡、性別等維度的屬性,而不是特征屬性。

    在每個用戶的行為過程中,系統(tǒng)與用戶填寫的基礎(chǔ)數(shù)據(jù)沒有直接關(guān)系。

    我們用戶的基本數(shù)據(jù)(年齡、性別等。

    )是顯式數(shù)據(jù)。

    用戶行為特征的系統(tǒng)化統(tǒng)計數(shù)據(jù)稱為隱性數(shù)據(jù)。

    平臺會將大部分已知的顯示數(shù)據(jù)與其隱式數(shù)據(jù)關(guān)聯(lián)起來,然后對未知的用戶數(shù)據(jù)進行訓(xùn)練,預(yù)測用戶的顯式數(shù)據(jù)是否正確。

    比如平臺里所有特征相同的人,可以預(yù)測這些人是否都是男性。

    大部分成熟的平臺現(xiàn)在這樣的預(yù)測結(jié)果準確率都在90%以上(換句話說,平臺不會把你用戶填寫的性別年齡數(shù)據(jù)當回事,而是通過大數(shù)據(jù)來確定。

    這樣,顯式數(shù)據(jù)就可以作為商家選擇購買廣告的可選標簽,比如直通車的性別和年齡段,這些都是商家可選的顯式數(shù)據(jù)。

    系統(tǒng)會找出這些群體隱含的數(shù)據(jù)關(guān)系,推薦給你真正想推薦的用戶。

    這也回答了我們一開始提出的一個問題。

    并不是用寶媽人群刷單就能給寶媽人群貼標簽的!在這里,我們已經(jīng)基本掌握了推薦算法的原理以及在平臺中的使用場景。

    因為這個內(nèi)容學(xué)術(shù)性很強,可能很多人看了都有抱怨。

    沒辦法。

    就算你看不懂,我也得先給你解釋一下原理。

    對于做過算法工程師的朋友來說,讀起來應(yīng)該會輕松很多。

    不過沒關(guān)系,就算你不理解前面的內(nèi)容也沒關(guān)系,記住后面的內(nèi)容就行了!首先,所有的刷單行為都無法模擬系統(tǒng)對人群偏好的算法,所以不要指望一邊刷單一邊兼顧人群的精準性,這是永遠無法實現(xiàn)的!第二,用戶標簽是被動形成的,商品標簽也是。

    在用戶購買的過程中,慢慢形成標簽。

    千人千面固然重要,但也不要過分神化。

    只是概率論和數(shù)理統(tǒng)計的應(yīng)用過程。

    你的產(chǎn)品適合什么樣的人,是在子宮里就決定了的,不是你通過一些技術(shù)手段就能改變的。

    你要做的不是找到更好的人群。

    第三,人群標簽不是競價系統(tǒng)中的一種權(quán)重(比如搜索結(jié)果)。

    競價權(quán)重本身還是要看產(chǎn)品的產(chǎn)值,但比如一個品類中有幾個產(chǎn)品符合同一人群,系統(tǒng)會優(yōu)先考慮這些產(chǎn)品。

    那么我們開直通車的時候,這類用戶搜索產(chǎn)品的時候,系統(tǒng)會根據(jù)我們和競品的競價關(guān)系,決定先給用戶展示哪些產(chǎn)品。

    說到這里,我突然想到,很多品類的計費比例是很大的,所以在這些品類中,用戶的特征采集必然會有很大的誤差,所以這個時候,即使我們付費的人是最適合這個產(chǎn)品的人,也不一定能得到最好的數(shù)據(jù),所以很多商家會覺得很難為更多品類的推廣付費。

    其實在你明白原理之后,你只需要知道你可以被動的測試所有的人群條件,找到表現(xiàn)最好的人群去做,而不是主觀的認為我的產(chǎn)品一定是男性標簽或者高消費群體標簽,這樣你的數(shù)據(jù)就可以在這個類別得到優(yōu)化。

    更何況根據(jù)法律要求,推薦算法形成的商業(yè)廣告是不允許針對個人的,所以你不用擔心個人資料的泄露(即使泄露不是推薦算法造成的)。

    正因如此,即使你沒有登錄賬號,你的操作行為依然會被平臺收集,關(guān)聯(lián)你的硬件信息,方便下一次行為推薦結(jié)果的推送。

    至此,我想我已經(jīng)把千人千面的道理解釋的很透徹了。

    可能大家會覺得晦澀難懂,但是你反復(fù)看,一定能看懂。

    這篇文章可以讓大家很容易的理解千人千面的工作原理,不會被一些錯誤的方法所欺騙,因為錯誤的理解,做出一些看似有效實際上毫無意義的行為。

    也希望借助這個平臺,認識真正有共鳴的人,多做研究和探討(感覺很難找到知音!)

    這個問題還有疑問的話,可以加幕.思.城火星老師免費咨詢,微.信號是為: msc496。

    難題沒解決?加我微信給你講!【僅限淘寶賣家交流運營知識,非賣家不要加我哈】
    >

    推薦閱讀:

    拼多多店鋪不能預(yù)售(店鋪不讓發(fā)布預(yù)售商品)

    淘寶直通車ROI臨界點怎么算

    淘寶發(fā)布商品必須填品牌嗎?可以隨便填嗎(淘寶代運營公司有用嗎?有哪些好處)

    更多資訊請關(guān)注幕 思 城。

    發(fā)表評論

    別默默看了 登錄\ 注冊 一起參與討論!

      微信掃碼回復(fù)「666