百度作為國內搜索引擎的扛把子,在對網絡數據的抓取、排序算法方面無人能敵,完美運作著百度競價推廣和自然排名(魏則西事件也讓百度的競價推廣服務被推上 風口浪尖),這里面自然脫離不開百度的機器學習。通過大數據獲取的海量用戶數據,機器學習通過對信息的分類、科學的建模為用戶提供更多的附加值產品,比如:百度搜索結果頁右側推薦關聯詞
但機器畢竟不是人腦,所謂的學習也不是真的去思考問題,而是依賴于算法工程師的邏輯設定。如果算法工程師在邏輯設定上有問題,機器學習必然會產生錯誤結果。就如同下面的例子,這是今天我在用百度搜索時無意中的發現:
本來腦子瓦特了,是上海一句罵人的話(具體感興趣的,大家可百度,哈哈),跟纏足這個詞是沒有一毛錢關系,但我們看看百度搜索結果頁右側推薦關聯詞都是些什么:
【相關習俗】三寸金蓮、一夫多妻、裹腳、殉葬
【相關人物】陽煥宜、王敏彤、婦好、珍妃
【相關詞匯】天足、平妻、自宮、女子無才便是德
打眼一看,基本都是跟裹足有關系,為什么會有這個結果呢?仔細看下左側正常的自然搜索結果,就會發現問題,排名第1的是百度知道,暫且不表,百度自家產品排名必然的高,重點分析排名第2的那篇文章《太可怕了,現在竟然還有女生纏足!!腦子瓦特了吧》
這篇文章是福州小魚網論壇里面的一個帖子,仔細看標題,就會發現問題:纏足、腦子瓦特了這兩個關鍵詞都包含在內。那我們要先了解一個問題,這個小魚網好像也不是什么很知名的網站,為何我們在搜【腦子瓦特了】這個詞的時候它可以排名第2呢?看過這篇帖子就會發現,它排名高是有原因的:
1,內容新奇
我這個本身是搜腦子瓦特了的人看到這篇跟我搜的完全不想關的文章都忍不住看了好一會兒,這會產生怎樣的結果呢?搜索到這篇文章的人,不管搜的什么詞,都會有興趣看上一眼,跳出率,在線時長,瀏覽頁面數等影響用戶體驗的關鍵指標,會因此而被錯有錯招的操縱,而這些是能夠影響百度關鍵詞排名的重要因素。換個角度講:就算你搜錯詞了,但因為跳出率,在線時長,瀏覽頁面數這些百度用來判斷文章跟關鍵詞關聯性的數據都很好,百度認為你這篇文章就是你要找的高質量文章。
2,內容不斷被更新
為何用個“被”字呢,因為這個是論壇,不斷有新的回復。這篇帖子的發布時間:2014-9-29,最近一次回復時間: 2016-4-28,差不多有兩年時間了,樓層都蓋到203樓了,說明這篇文章的確是有其存在的價值。實際上大家都被騙了,這篇文章內容能被不斷更新的原 因是:設定了回復才能瀏覽,這樣在獵奇心理的驅使下,大家不斷回復更新內容,帖子被在論壇內不斷人工置頂(帖子被回復會自動排序到論壇帖子列表的首位),站內沒看過這篇帖子的會員看到后又一波的回復及人工置頂……
度娘就這樣又一次被這種假象給完美欺騙了~
綜合以上兩點,度娘高興壞了,這樣低跳出率、高訪問時長、高瀏覽頁面數且不斷更新的文章就是天賜的不可多得的好文章啊~所以排名頂呱呱也是意料之中(ps:大家搜【纏足】這個詞,這篇文章的排名依然很高,我這顯示排第4),度娘還專門為這篇文章設置了【為您推薦】
對這篇在度娘心目中極具分量的文章通過分詞技術進行深度解析,度娘分析出纏足和腦子瓦特了這兩個詞存在某種強關系,所以我們最開始關于腦子瓦特了和纏足為什么存在相關性的問題也有了答案。百度搜索結果頁右側推薦關聯詞也正是因為這篇文章,致使在搜索腦子瓦特了這個詞時,纏足的相關結果會在其右側展示。
綜上所述,百度搜索結果頁右側推薦關聯詞理論上是可以被操縱的,只是很難很難很難,除非你也能搞一篇這么逆天又能完美欺騙度娘的文章~
本文來源:清平樂博客《深度研究:百度右側搜索關聯詞能否被操縱?》