麻省理工學院稱第三方 Twitter 機器人檢測工具“不準確”：數據集過于簡單，泛用性較差

2023-06-26 09:48:32|

來源：IT之家作者：

【資料圖】

IT之家 6 月 26 日消息，美國麻省理工學院（MIT）的研究團隊近日發(fā)表論文指出，現(xiàn)有的第三方推特（Twitter）機器人賬戶自動檢測工具并不準確，因為其數據集過于簡單，缺乏泛用性。

此前有消息稱，機器人賬戶過多是阻止馬斯克收購推特的原因之一。推特當時聲稱其日活躍用戶中有 5% 是機器人賬戶，但馬斯克表示這個數字要比 5% 高得多。

推特有自己的機器人賬戶識別系統(tǒng)，但并未公開。因此，對于普通公眾而言，第三方工具是較為可行的檢測方法。這些第三方工具使用從推特收集的數據集和機器學習模型來檢測機器人的可疑跡象，許多工具和模型已被用于研究社交媒體上的機器人活動，相關論文甚至已達數千篇。

▲ 用于推特機器人檢測的公開基準數據集

這些論文中的大多數基準數據集都是在不同推文中收集的數據集合，其中許多都是在特定推文（例如包含特定主題標簽的推文）中收集的，每條都由人類手動標記為機器人或人類。然而這種經過專門訓練的機器人檢測模型在該專業(yè)領域表現(xiàn)出色，卻并沒有涵蓋全部領域，并且嚴重依賴于特定數據，而不是機器人和人類之間的根本差異。

當這些模型在其他領域的數據集上進行測試時，它們的準確性很差，幾乎與隨機預測水平相當。同時，在許多數據集上，即使是相對簡單的模型也與最先進的機器學習模型（SOTA）準確率相當。

▲ 簡單模型與 SOTA 模型在基礎數據集上的性能比較

換言之，在一個數據集上訓練的模型不能推廣到其他數據集，現(xiàn)有的機器人檢測數據集由于數據收集簡單而通用性較低。

最后，研究人員警告說，當使用現(xiàn)有的機器人檢測數據集時，用戶應該仔細考慮可能存在哪些類型的偏差。研究人員認為，一個根本的解決方案是推特等社交媒體本身就應該為研究人員提供豐富、可靠的數據以及高質量的真實標簽。

IT之家附上論文地址：點此前往

標簽：