01
這兩天互聯網圈最大的熱門事件是,小紅書下架了。
7月29日晚間,各大安卓應用市場的小紅書APP暫時不提供下載。
作為國民級種草APP,小紅書的下架既是意料之外,也是情理之中。
意料之外在于,小紅書本身只是一個主打消費的內容社區,本身不具有攻擊性。
情理之中在于,小紅書是C2C模式,筆記內容可以隨意發布,任何人用任何方法都可以發布任何內容。
正常人可以,微商可以,特殊工作者可以,黑產也可以。
對于一切C2C的工具類平臺產品,只要能發布內容,其實內容失控的風險都是存在的,不僅是小紅書。
之前的即刻,Soul,乃至網易云音樂,都存在內容失控的情況,話題廣場,論壇,評論區,用戶昵稱,甚至私人對話,只要可以錄入文字圖片和語音的地方,就存在著失控的風險。
畢竟產品是簡單的,人性是復雜的。
平臺治理和內容安全也歸屬于大風控的范疇,作為一名風控從業者,在這方面,我有一些實戰經驗。
這篇文章,我打算從內容風控和平臺治理的角度來談談行業當前的現狀與困境。
內容失控,對于所有電商和社區類產品而言,都是致命的。
尤其在互聯網文明越來越重要的今天。
02
小紅書作為C2C的工具類平臺,用戶是可以自己上傳圖片和筆記的。
同時小紅書又是Top的種草平臺,用戶逛小紅書就是買東西的。
自由的規則配合精準的潛在消費者,二者一結合,就成了一塊超級美妙的流量蛋糕,肥的流油。
于是各種違禁黑產,色情交易,非法醫美,就都來了。
在下架前,小紅書通過一些關鍵詞索引,可以獲得各種神奇的服務,當然現在已經開始大規模屏蔽。
例如粉毒和非法醫美;比基尼和特殊服務;增高減肥和黑五類保健品;銀行卡電話卡和黑產資料。
這些筆記的特點都是打著攻略分享的名義,往賣家的私人微信號上導流,然后用話術誘導成交。
這種自發性的C2C傳播,也是小紅書產品本身的最大特點。
很多不法商家在利用小紅書這個平臺,大發橫財。
小紅書作為平臺方,有苦難言。
03
我不想去討論小紅書作為平臺有沒有責任,畢竟內容是用戶自發的,這塊我不夠專業。
我想討論的是,用什么方法可以有效治理掉這些垃圾內容,小紅書的風控和平臺治理們也在頭疼這件事情。
作為風控同行,我想提一些建議,這些源自我的一些實戰經驗,希望能對他們以及讀者有所幫助。
OK,小紅書當前面臨的核心問題是,C端用戶上傳的內容具有很大的不可控性,里面可能夾雜了大量的違法違禁內容,需要有效識別這些人,然后針對性屏蔽和封號,在保證正常用戶體驗的前提下,降低內容風險。
當然,不管是降低內容風險,還是保證用戶體驗,其核心目的都是要保證企業的商業利益最大化,這是大前提,風控要為業務服務。
所以一切手段最終都要平衡誤殺率和ROI。
那么,我們開始。
04
關于違規內容屏蔽,目前業內主要使用的是外采詞庫以及內部維護一套動態詞庫。
所謂外采詞庫就是有專門的供應商會做涉及敏感領域的詞,支持API的形式直接調用,可以嵌入到用戶昵稱錄入,文本上傳,用戶私信等模塊,只要上傳文本,都會進行一次詞庫過濾,把一些違禁的詞給抓出來。
優點是快速上線,缺點是詞庫是暗箱狀態(屬于供應商),并且業務關鍵數據容易泄露(API調用的入參容易被供應商拿走商用)。
我知道小紅書的供應商是哪家,我也測試過很多家,只能說通用詞庫是沒法依據實際業務場景來做精準打擊的,建議小紅書自建詞庫,如果沒有現成可配置的詞庫框架,可以使用腳本的方式來讓研發維護一套詞庫,當然最好還是做成可配置的,畢竟用腳本的話,詞多了很容易崩潰,不是長久之計。
有了這一套東西后,需要一套應用策略,包含敏感詞收集策略,敏感詞應用策略,敏感詞處置策略。
所謂敏感詞收集策略,要解決的是如何獲取到有效的敏感詞。
很多人工智能公司吹捧所謂自然語義識別,用機器學習做,在這里是不好用的,我要提醒一下小紅書,不要迷信機器學習。
因為漢語是博大精深的,使用諧音字,變體字,火星文,以及中間夾雜各種特殊符號和空格的模式,很容易就能繞過機器。
就微信這個詞,可以變種成V信,VX,威,VV,你懂得,威X信等等等等,機器學習做不到這么精準的打擊,但人的識別配合SQL以及Python代碼,可以實現。
在這里,建議使用實時數據庫,配專門的數據分析師來做詞語收集。
數據分析師可以通過一些基礎的違規信息,來進一步人工延伸出索引規則,例如微 ` 信12345,就可以提取出某些關鍵字(用微這個字來做索引),某些特殊符號,甚至某些符號+數字的特征來抓。
一個熟練的風控數據分析師,一天抓出上萬有效敏感詞不是問題。
所謂敏感詞應用策略,要解決的問題是這些敏感詞用于哪些領域。
當你有了一個敏感詞庫時,你需要對每一個詞進行打標簽,例如殺人這個詞是A類標簽,吃奶這個詞是B類標簽,不同的業務場景以及電商品類,要使用完全不同的標簽。
例如牛奶類的筆記,用吃奶這個詞就會誤傷很大。
這里需要做的是,給每一個場景的業務都打上標簽,然后依據標簽來使用敏感詞庫中的詞類目。
例如口紅類筆記要用ABC標簽的詞。
例如旗袍類的筆記要用CDF標簽的詞等等。
至于如何拆解品類打標和敏感詞,這個就不展開了,展開必是長篇大論。
所謂敏感詞處置策略,要解決的問題是內容命中了敏感詞之后,要如何處置這些內容。
這里其實也牽涉對敏感詞的打標,主要是設置敏感詞處置權重。
例如黃恐暴類的敏感詞,標簽對應的處置手段應該是直接屏蔽+封號或者直接禁止發布。
例如疑似推廣微信號的標簽,對應的處置手段應該是屏蔽+禁言,或者禁止發布。
例如命中了一些權重較弱的敏感詞或者敏感字,對應的處置手段應該是轉人工審核,再發布。
當然這里只是舉幾個簡單的例子,敏感詞的應用方法還有很多,不過這個方向是目前比較成熟的模式。
除卻敏感詞之外,小紅書的筆記中還含有大量的圖片類內容,這些圖片類內容目前主要的問題有2個。
第一個是黃恐暴類圖片,圖片本身有問題。
第二個是圖片本身沒問題,但是圖片里面的東西有問題,例如圖片里面就有VX:12345等字跡或者水印。
對于前者,建議直接購買現成的圖片識別服務,阿里騰訊都有成熟的服務。
對于后者,可以使用OCR把圖片轉成文字,然后使用敏感詞策略來進行處理。
以上是對于內容本身的風控思路,需要注意的是,這個需要投入大量的資源,尤其是人工審核資源,今日頭條就有數千人專門做內容審核,對于內容電商來說,這個不能省。
而且內容攻防應該是動態的,不存在一勞永逸的事情,需要做好持久戰的準備,漢語就是這么博大精深。
05
內容風控很重要,但其實只是表層,而且永遠難以做到窮舉,真的一刀切下去,會誤傷大量的正常用戶,這對于用戶體驗和公司的商業價值而言都是損失。
比內容風控更重要的,是底層風控,從用戶注冊到發生第一次行為(例如發布筆記或者給某個筆記點贊或者評論或者分享),都需要做更深入的風險管理。
除了要管別人發了什么內容,同樣還要管是哪些【人】發了這些內容。
通過敏感詞體系,可以對大量的內容筆記來進行標簽,分類出正常筆記,可疑筆記,搗亂筆記,沙雕筆記等等等等等,這些統稱為Y。
風控策略的基礎邏輯是F(x)=Y,X是指特征,F是指算法or策略,Y是指效果。
當你有了Y之后,就等于知道了答案。
然后去找這些異常的筆記,都是誰發布的,這些發布的賬號的特征(X)是什么。
一般常見的賬號特征有數百個維度,例如注冊時間,年齡,性別,發布時間,常用標簽,ip地址,設備號(imac,imei,device id),手機號,性別,歸屬地,APP來源(華為市場,小米市場,APP Store),登錄模式(APP,小程序,H5),手機型號,GPS地址,LBS區域,用戶注冊來源(自來水,A活動推廣,市場投放轉化,CPA),歷史行為(點贊數,關注人),瀏覽行為,等等等等等,這些信息有的來自于APP埋點,有的來自于依據原有特征推算出的衍生特征。
特征工程是風控的核心之一,重要性不亞于策略應用,好的數據是一切的基礎。
通過敏感詞找到Y,然后利用Y來反推命中的X,然后得出應用策略-F。
案例1,假如小紅書發現某個整容類的異常筆記,大部分發布者和點贊者的IP都是相同的或者都是同一個號段的,那么完全可以設置策略屏蔽這個IP段發這個類型的筆記。
案例2,假如小紅書發現某些有問題的筆記,都指向同一個微信號,那么就把發布過這個微信號的賬號全都封了,連誤殺都沒有。
案例3,假如小紅書發現某些有問題的筆記,大部分發布者和點贊者都是24小時內注冊的,那么完全可以設置注冊時間XXX時間內,不允許在XX領域發筆記。
類似的規則,在成熟的平臺治理中,會有數十萬條,我做過設計和維護。
這一切的規則,都要做成動態可配置的,做成決策引擎的模式,風控只需要拖拉拽這些標簽,然后自己寫比對符和閾值,再配置處置手段,就可以生效。
例如一條規則,禁止注冊時間在24小時內的女性用戶發布比基尼筆記。
拆解起來就是。
注冊時間<24小時,
且 性別標簽=女,
且筆記標簽=比基尼
則,禁止發布,
且,彈出文案【半佛仙人你別比比了】。
把這些做成是否的標簽,可以自由配置,快速上線。
06
夾雜敏感詞策略和決策引擎中間,還應該有一層基于【賬戶】維度的用戶關系網絡以及實時監控和干預機制,用圖挖掘來做。
所謂關系網絡,是指不同賬戶間的關系,由點和線組成。
例如A賬戶給B賬戶的筆記點贊或者評價,就會形成一條關系。
反應在網絡中就是A點和B點之間出現了一條關系線(A點贊/評論B)。
再例如A賬戶和C賬戶同時給B賬戶的筆記點贊或者評價,就會形成多條關系線。
反應在網絡中就是A點到B點(點贊串聯),C點到B點(點贊串聯),A點到C點(都給B點過贊)。
關系網絡,是對于批量作弊賬戶的大殺器。
在實際業務中,通過設置點和線的規則,可以有效攔截批量異常行為。
例如在同一個時間,出現了大量有關聯的賬戶(相同IP,相同操作頻率,相同GPS等),與某幾個筆記或者賬戶出現了可疑關聯(批量點贊),就可以進行攔截。
例如在近10分鐘內,整個的流量池出現了波動異常(分均用戶點贊數超過了平均值XX倍),則可以觸發警報,把溢出流量關聯的內容進行屏蔽等等等。
關系網絡更多是橫向的對比以及大盤的監控,涉及賬戶管控,不僅要看橫向,更要看縱向。
所謂橫向,是指同一個時間里,賬戶A和賬戶BCDEF是否有相同的行為或者異常的關聯,所有人放在一起來比不同。
所謂縱向,是指同一個賬戶,在不同的時間里,進行了怎樣的操作。
例如A賬戶,過去六個月都是給一些正常的筆記點贊,瀏覽和評論都很正常,但是近3天,在密集的跟一些異常的筆記產生互動和分享。
這就是賬戶出現了問題,與之前的操作不同,需要對賬戶發出警告,要么屏蔽功能,要么要求實名。
橫向是用其他用戶的特征比對一個用戶,縱向是指用戶過去的特征比對當前的行為。
縱橫之術是對抗黑產養號與批量作弊的屠龍術。
07
敏感詞策略和決策引擎外,還需要做的是賬戶準入和APP加固。
所謂賬戶準入體系,是指在用戶注冊階段就攔截掉大量黑產用戶。
大量發布垃圾筆記和違禁筆記的賬號,往往都是接碼平臺批量注冊了,不是很多人想到一堆人拿著幾百個手機在操作,微商很賺錢的好嗎,不會干這種low事。
這就代表著,這些注冊手機號本身,就有足夠多的問題,因為黑產們拿手機號也有成本,往往會多次利用。
這個手機號在小紅書耍流氓之前,可能已經在其他平臺被教育過了。
一般在注冊階段,建議對手機號加一層準入規則,常規的手段是禁止小號和虛擬號注冊,進一步的手段就是采購阿里云和騰訊天御的注冊反欺詐評分,輸入一個手機號+注冊IP,可以返給一個評分,分數高于XXX分的時候,拒絕用戶注冊,或者強制要求實名(人臉或者銀行卡)。
阿里有最全的電商黑產庫,騰訊有最全的社交黑產庫,網易有最全的游戲黑產庫,都是T+0實時更新的,土豪一些的公司可以都用,其他自便。
反正只要風控能根據異常筆記抓到注冊賬戶手機號就行,拿這些去測各家的數據準確度與誤殺率,并不困難。
這個操作在業內叫做加盾,有這一層盾,基本上可以擋掉市場上9成5的黑產,大多數黑產是沒有能力繞盾的,因為資金不夠雄厚,手機卡更新速度上不去。
賬戶準入體系外,還需要的就是APP加固。
所謂APP加固,是指對于APP本身的代碼,接口做封裝和動態加密,攔截接口直接寫入內容,代碼破解,沙盒,GPS更改等一系列攻擊行為,簡單理解為是反外掛也可以。
很多APP對于用戶的錄入內容其實都是有限制的,很多APP甚至不允許用戶錄入內容,只能選擇幾個特定的標簽。
但是黑產在進行違規內容滲透的時候,往往不是手動填寫的,而是直接反編譯本地APP代碼,攔截接口的動態信息,然后調用接口錄入。
例如正常人肯定打不出一些特殊符號,但是通過接口用機器寫入,想寫什么,就寫什么。
小紅書社區中的大量明晃晃的違規內容,很有可能是由于接口被攻破,遭遇大量的機器寫入,這個在黑產攻防中很常見。
通過機器大量灌入垃圾內容導致競爭對手出現問題,在業內并不稀奇。
所以在賬號準入外,也要主要APP本身的加固措施。
08
敏感詞過濾,決策引擎,加盾,APP加固,這4套都做好(需要坐很久很久,這是一個很大的工程),是不是就高枕無憂了?
不是的,作為內容社區,小紅書還需要更重要的一套機制,就是用戶內容舉報機制。
只靠小紅書自己,累死他們也不可能擋掉一切的垃圾內容,而且使用策略也好,規則也好,閾值設置比較寬松的話,總有漏網之魚。
閾值設置過于嚴格的話,總會有被誤殺的用戶,被誤殺的用戶還會去各個論壇和網絡媒體發聲,去譴責小紅書。
在這個好事不出門,壞事傳千里的年代,這種負面信息對于小紅書也是一種傷害。
而小紅書最大的特點就是用戶自發的參與度高,所以一套完善的用戶舉報機制是非常高效的平臺行為。
這套機制不是加一個所謂的按鈕點擊這么簡單,用戶看到的可能就是一個舉報按鈕。
但小紅書需要做的是針對整個舉報設計完整的SOP(標準作業流程),如何判定舉報是否有效,不同舉報內容的確認標準以及處罰標準,舉報應在什么時間內生效,應該給與舉報用戶怎樣的獎勵與支持增加積極性等等等等,這也是一個浩大的工程。
但對于內容社區而言,用戶自發舉報是非常好用的東西。
09
以上內容只是基礎的平臺治理體系,具體的落地方案,執行計劃,原始變量及閾值切分等等,受限于保密協議和飯碗的原因,我不方便講更多,但足夠給風控同行做參考了。
而且這些基礎體系,在實際操作中,還面臨著諸多實務性的難題以及場景契合的問題,很多問題都不是簡單的風控問題,需要整個公司的戰略和定位一起跟上。
例如在做特征工程的時候,很多數據要求實時性,數倉部門如何滿足數據完整性?
例如做策略的時候,需要大量的標準數據,數據產品怎么依據業務需求設計表結構以及數據清洗?
例如評估策略效果的時候,風控產品如何設計分流灰度來做冠軍挑戰者(ABtest)實現效益最大化?
這樣的問題還有很多,其中很多都是牽一發而動全身,公司的資源是有限的,公司里也不是只有風控,大家要靠著業務和營銷吃飯的。
這些問題,需要整個公司從上而下認識到這個風險,整體考量業務和風控的平衡,爭取公司利益的最大化。
在這個互聯網文明大趨勢的浪潮下,內容風控將是很多公司的命門,而諸多先行者早就靠自己的積累吃盡了早期野蠻生長的紅利,同時樹立起了極強的風控壁壘。
這些壁壘需要大量的時間和資源投入,不是一朝一夕就有的,全部都是非賣品。
這對于后來者而言,是非常難的一件事。
但熬過這一劫,就是羽化登仙。
之所以我今天對小紅書說了這么多,并不是我喜歡小紅書。
而是我覺得,一個活在巨頭陰影下的互聯網江湖,有點太寂寞了。