學霸程序員怒捅馬蜂窩,175億獨角獸因此縮水至20億_風聞
观察者网用户_244308-2018-10-23 15:15
源 / 頂級程序員 文 / 江户川雨
馬蜂窩數據造假
10月21日,一篇名為《估值 175 億的旅遊獨角獸,是一座殭屍和水軍構成的鬼城?》的文章在社交網絡發酵。
文章抓取的諸多數據信息表明,馬蜂窩存在點評大量造假的情況。而點評造假的內容多來自諸多同行網站,並存在自建團隊撰寫虛擬點評的行為。
10月21日下午,馬蜂窩對此回應稱“正在核實情況,會盡快給出結論。”
隨後在 10 月 22 日早上,發出了一則聲明稱“該自媒體文章所述的馬蜂窩用户數量與事實和第三方機構數據都嚴重不符,並存在誤導傾向,已被查證為有組織攻擊行為,將採取法律手段維護自身權益。”
緊接着,此前爆料的公眾號再次發文《馬蜂窩開始毀滅證據了,但這水平真的哈哈哈哈哈哈哈哈》,指出,原文章發出後馬蜂窩對發佈平台進行了投訴,同時發現“在文章發出來8個小時以後提及的賬號從搜索欄屏蔽,點評內容也在個人頁被刪除了。”而且通過數據查證發現,馬蜂窩在核心內容“遊記”板塊也“已經被水軍嚴重污染”。
從旅遊社區起步的馬蜂窩誕生於2006年,在2011年10月及2013年4月,分別獲得A、B兩輪融資。2015年1月獲得高瓴資本等投資的8500萬美元C輪融資,同年發佈自由行戰略後探索出了一條從內容到數據再到交易的商業模式,目前已在2017年完成1.33億美元的D輪融資。
彼時,馬蜂窩CEO陳罡在D輪融資的內部信裏表示,每月有1億活躍用户,其中85%來自移動應用程序,“三年後,螞蜂窩將成為中國最大的旅遊流量平台”。馬蜂窩曾公開表示該網站的用户每月發佈超過13.5萬篇旅遊文章,當時預計2017年個人旅遊產品的銷售額會超過90億元人民幣。今年公司估值更是高達175億。
但這一次數據造假消息一出,引起行業震盪,甚至有消息稱,如果上述質疑最終被坐實,馬蜂窩估值或將從175億元降至20多億元。
來自程序員的憤怒
説起捅馬蜂窩的緣由,該自媒體道:“乎睿數據的團隊幾個同學回國沒多久,參加創業大賽,沒想到吃外賣拉了肚子,一怒之下去平台寫了一段差評表達自己的憤怒,結果,沒有得到有效回覆,反而被污衊詆譭。”
而碰巧,這幾位同學在美國藤校學的都是數據挖掘、語義分析,這幾位歸國的程序員一怒之下決定拿馬蜂窩訓練一個模型,用於篩選餐飲點評中的水軍。
結果越爬越奇怪。發現了很多詞不達意的評論。
經過四個月的詳細挖掘,發現馬蜂窩的點評存在嚴重抄襲行為。於是,這家新創業的乎睿數據,拿着75頁的完整報告,將馬蜂窩給捅了。
那篇來自乎睿數據的研究報告的公號文章,主要質疑的是馬蜂窩的核心用户遊記以及餐飲、酒店等的點評真實性問題。聚焦馬蜂窩引以為傲的數據,也是估值當中投資機構最看重的核心數據。
文章中稱,在餐飲和酒店點評領域,在馬蜂窩平台上共發現了7454個抄襲賬號平均每個人從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數千條點評,合計抄襲572萬條餐飲點評,1221萬條酒店點評,佔馬蜂窩官網聲稱總點評數的85%。
乎睿數據團隊剔除“抄襲賬號”後,在餘下的所有賬號中選擇了15000個最活躍的賬號,發現用户在答題、點評等行為時間上高度一致,且與其他同類型評論網站發佈時間差異較大,大多是工作時間(週一至週五10時至12時、14時至17時)更為活躍。
乎睿數據團隊還發現,一批在遊記攻略中植入廣告的商家通過抄襲、拼接等“做號”、“洗稿”手段批量炮製出含有廣告內容的遊記、問答、回覆,再由大量的小號、馬甲進行人工置頂,達到以低成本對平台上億用户打廣告的目的。
馬蜂窩炸了
知乎睿數據團隊“捅了”馬蜂窩,一時間輿論如潮。業內人士指出,如該事件屬實,消費者對於平台的信任度將大打折扣,造成用户流失,品牌形象、未來經營都將受到一定影響。
這一下,馬蜂窩炸了。
22日上午7點45分,其微博發佈聲明稱,馬蜂窩的UGC內容數據中,遊記和攻略佔比78.91%,嗡嗡(旅行故事)佔比7.92%,問答佔比10.26%。這些數據背後是用户真實的情感與回憶,也是馬蜂窩內容的真正價值。
針對自媒體指控馬蜂窩主流用户撰寫評論的時間呈現上班族規律的質疑,馬蜂窩方面表示,2016年以前,馬蜂窩曾激勵用户發表點評,點評數據出現快速增長,但隨後以遊記、攻略為代表的長內容,以嗡嗡(旅行故事)、問答為代表的短內容產品,成為運營重心。馬蜂窩用户記錄旅遊體驗的行為,也與記錄本地生活服務不同,人們習慣在旅行完成之後進行回顧分享。
“餐飲點評不是馬蜂窩的內容核心,且部分點評來自遊記、問答等內容的提取,上述自媒體將馬蜂窩用户內容生產的活躍週期,與餐飲等本地生活服務類APP相對比,並解讀為馬蜂窩員工有組織地抄襲,存在明顯的誤導傾向。”
馬蜂窩方面稱,一直以來,馬蜂窩嚴厲打擊遊記、問答中違規廣告的行為,平均每週處理26000條違規廣告信息,查封15000個違規賬號。自媒體將不法商家的違規行為歸結於馬蜂窩,與事實嚴重不符。
對於相關指控,馬蜂窩方面表示,該文中歪曲事實的言論,和已被查證的有組織攻擊行為,馬蜂窩將採取法律手段維護自身權益。
對此,自媒體方表示,截至當時只看到馬蜂窩對公眾號兩篇文章的投訴,沒有公司聯繫到他本人。也表示不懼投訴!並且,根據手中詳實數據,他們還會進行第三輪的爆料。
此時,想起一首名曲《野蜂飛舞》十分應景。
欺詐有理?
實際上,就此事,業內也有不同的觀點。
“馬蜂窩承認部分點評來自內容提取,讓UGC行業或多或少地暴露出原創內容端的不足、不同端口資源共用等問題。”業內人士分析認為,馬蜂窩被疑抄襲的內容存在一定的被“反爬”跡象,比如點評中出現翻譯提供方的字樣等恰恰説明這是行業比較常見的操作。
業內專家認為,有些平台從其他平台抓數據的目的是為了製造流量很大的假象,既給用户看、商家看,更是給投資人看。
由於不涉及到數據庫門檻,在技術上沒有難度,任何一個爬蟲工程師就可以做到,也可以批量處理,通常是“機器抓取+人工編輯”。
“互聯網公司利用爬蟲技術,從其他平台抓取數據的行為應該説較為常見。”
爬蟲抓取、抄襲和造假在互聯網行業並不少見,甚至已經成為很多平台屢試不爽的一大“捷徑”,但對於像馬蜂窩這樣的企業而言,或許入駐馬蜂窩平台的商家為吸引人氣和流量所為的可能性更大。
究其原因,業內人士認為,正是因為用户原創內容愈發趨於商業化,在此情況下想要獲取帶有流量的原創內容的成本變得越來越高。“在用户從確定旅遊目的地到購買旅遊產品的場景中,企業僅僅依賴UGC基礎上的廣告營收是遠遠不夠的,變現、盈利成為生存難題,而反過來這些客源也勢必會成為企業間爭奪的核心資源。”
2014年,攜程網和去哪兒尚未合併,馬蜂窩CEO陳罡在微博公開炮轟去哪兒通過虛假評論造假,認為去哪兒的刷評行為已經動搖到了行業誠信的根基,但去哪兒未對此進行公開回應;
今年7月,小紅書微博發聲指責大眾點評疑冒用小紅書用户名稱賬號,搬運用户在小紅書發佈的原創筆記內容,同時表示被搬運的用户已授權其處理維權事宜,大眾點評回應稱出現這種情況系由於其對新業務的管理疏漏所致,已完成內容排查與清理下線工作,並表示將通過技術手段確保類似問題不再出現。
……
找餐館吃飯,出門旅遊,先上網看一眼點評。網站上的口碑好不好,對消費者線下生活的影響越來越大。用“機器+人工編輯”批量製造假的口碑類評論,甚至僱用職業寫手,導致虛假“用户體驗”氾濫網絡,是對普通消費者的誤導,直接損害消費者的利益,更是對網絡生態的傷害、對社會信任的破壞。
對企業而言,把生意建立在法律條款的不嚴謹與行業產業的陋習之上,一味使用虛假手段來維護數據“美觀”,即便贏得一時的“好評”如潮,最終仍免不了失去用户。這就叫“搬起石頭砸自己的腳”,害人害己。
還有最重要的一條:別惹程序員!