Twitter 開源推薦算法被指省略重要細(xì)節(jié),比馬斯克承諾的差遠(yuǎn)了
4 月 7 日消息,上周推特兌現(xiàn)了埃隆?馬斯克 (Elon Musk) 長期以來的承諾,在 GitHub 上公布了部分推薦算法底層代碼。然而,研究人員表示,其中的內(nèi)容并不詳盡,推特省略了“算法到底是如何工作的”等重要細(xì)節(jié),使得我們想要弄清推特平臺內(nèi)部運作機(jī)制仍然很困難。
以下是翻譯內(nèi)容:
(相關(guān)資料圖)
當(dāng)馬斯克第一次提出要接管推特時,就宣稱他接手后的第一件事就是“開源”推特算法。上周,他終于履行了自己的承諾,推特在 GitHub 上發(fā)布了平臺上有關(guān)“為你推薦”功能的部分底層代碼。
人們很快開始對這些代碼進(jìn)行深挖,沒過多久就發(fā)現(xiàn)馬斯克的推文有特殊類別標(biāo)記。推特工程師們急忙站出來解釋說,這是為了便于“跟蹤統(tǒng)計”,其他分析也證實了這一說法。盡管推特幾個小時后就從 GitHub 上刪除了這段代碼,但人們?nèi)匀徊聹y推特工程師們特別優(yōu)待馬斯克所發(fā)內(nèi)容,可能采取了人為措施來提升他的推文曝光量。
自此之后,推特沒有發(fā)布更多代碼,也沒有說明其平臺算法的內(nèi)部運作機(jī)制。那些希望通過推特公開代碼來探究平臺內(nèi)部運作機(jī)制的人可能會感到失望。研究過這些算法的工程師們表示,這是因為推特發(fā)布的代碼省略了“算法”到底是如何工作的等關(guān)鍵細(xì)節(jié)。
據(jù)紐約大學(xué)研究社交媒體的副教授、前推特員工索爾?梅辛(Sol Messing)稱,推特所公開的內(nèi)容對推特算法進(jìn)行了“大量編輯”,其中首要問題就是沒有涵蓋在推特推薦功能中能發(fā)揮作用的所有系統(tǒng)。
推特表示,它沒有公開用于處理廣告的代碼、信任和安全系統(tǒng),以防止不良行為者利用這些代碼進(jìn)行惡意操作。此外,推特還選擇不公布用于訓(xùn)練算法的底層模型,并在一篇博客文章中解釋稱,這是為了“確保用戶的安全和隱私得到保護(hù)”。梅辛認(rèn)為,這個決定甚至更為重要?!八惴ǖ淖铌P(guān)鍵部分 —— 驅(qū)動模型仍沒有開源,”他說,“因此,算法最為核心的部分仍然讓人費解?!?/p>
馬斯克最初開源推特算法的動機(jī)似乎源于他對推特利用算法壓制言論自由的擔(dān)憂。他在去年四月份的 TED 演講中說:“我認(rèn)為推特應(yīng)該開源算法,公開對推文內(nèi)容的任何更改 —— 無論是推薦還是不推薦 —— 都應(yīng)該明明白白地呈現(xiàn)出來。這樣,任何人都可以看到推特采取了哪些措施,就不會有任何算法或人工的幕后操作。”這一演講是馬斯克確認(rèn)收購?fù)铺睾蟛痪米龅摹?/p>
在推特發(fā)布的代碼中,沒有提供足夠的信息來告訴人們這個平臺是否存在潛在的偏見,也沒有提供內(nèi)容來說明是否存在馬斯克想要公開的那種“幕后操縱”手段。梅辛說:“這只是透明度的做法?!薄暗沁@些內(nèi)容并沒有真正幫助人們深入了解算法的運作,也沒有讓人真正深入了解為什么有些人的推文排名會下降,而其他人的排名會上升?!?/p>
此外,梅辛還指出,推特最近在調(diào)整其應(yīng)用程序編程接口(API)方面的政策,這基本上切斷了絕大多數(shù)研究人員訪問大量推特平臺數(shù)據(jù)的途徑。沒有合適的 API 訪問權(quán)限,研究人員根本無法自行研究推特算法的新細(xì)節(jié)。梅辛在自己的分析中寫道:“在推特公布這些代碼的同時,這種做法使得研究人員更難深入分析代碼內(nèi)容?!?/p>
去年,在馬斯克首次討論“開源”推特算法的計劃后不久,分布式人工智能研究所 (DAIR) 研究總監(jiān)亞歷克斯?漢納 (Alex Hanna) 也提到了研究人員審查代碼的重要性。和梅辛一樣,她也認(rèn)為僅在 GitHub 上發(fā)布代碼并不足以提高推特運作方式的透明度。
漢納說:“如果你真的對公眾監(jiān)督推特算法等事情感興趣,那就必須采取多種方法?!?/p>
不過,推特在 GitHub 上公開的部分代碼確實揭示了推特算法的一些內(nèi)容。梅辛透露,數(shù)據(jù)科學(xué)家杰夫?艾倫 (Jeff Allen) 從中挖掘出一份文件,其中的內(nèi)容揭示推特如何使用“公式”為不同類型的用戶參與賦予優(yōu)先級。梅辛寫道:“如果我們從字面上理解,就會發(fā)現(xiàn)推特上的 1 個贊相當(dāng)于半個推文轉(zhuǎn)發(fā)?!薄耙粭l回復(fù)相當(dāng)于 27 次轉(zhuǎn)發(fā),而 1 條回復(fù)再加上推文作者的回應(yīng)就相當(dāng)于 75 次轉(zhuǎn)發(fā)?!?/p>
雖然這在一定程度上揭示了一些信息,但有關(guān)推特平臺的運作方式的描述并不完整。梅辛說:“沒有實際數(shù)據(jù)的話,這種分析沒有多少意義。”“如今馬斯克讓學(xué)者獲取數(shù)據(jù)的成本高得離譜。如果他們現(xiàn)在真的想研究這個問題,基本上每年需要花費 50 萬美元(當(dāng)前約 344 萬元人民幣)的巨資才能獲得大量有意義的數(shù)據(jù)?!?/p>
標(biāo)簽: