當前位置: 華文天下 > 辟謠

收集使用者數據訓練AI?Meta又攤上事了

2024-06-21辟謠

作 者丨肖瀟

編 輯丨鐘雨欣

圖 源丨圖蟲

本周Meta宣布, 暫停使用歐盟和英國使用者的數據訓練AI,並推遲在歐洲推出自己的大模型。

愛爾蘭、英國、挪威等多國監管機構認領,公司此舉是回應監管機構的要求。挪威數據保護機構稱,Meta向它們承諾暫停使用Facebook和Instagram上的貼文和圖片來訓練大模型,目前不確定會推遲多長時間,正在與其他歐盟國家的監管機構一同討論。

Meta收集使用者數據的計劃開始於上個月,平台通知歐洲使用者將在6月底正式啟動新的私密政策:公司將使用Facebook 和 Instagram上的公開內容來訓練大模型,包括互動內容、狀態、照片和標題,不包括私人間聊天記錄和未成年人賬戶資訊。更新的私密政策引發了反對,奧地利非營利機構組織NOYB當即向11個歐盟成員國分別提起投訴,請求啟動緊急程式。

爭議並非孤例,如何向使用者要到數據授權來訓練AI,是擺在所有互聯網公司面前的一道難題,公司不僅僅要拿捏好合規尺度,還需要顧及對私密問題愈發敏感的使用者情緒。 受訪專家告訴21世紀經濟報道,援引歐盟的「正當利益」條款來獲取使用者數據,之後可能會越來越常見,不過目前中國【個人資訊保護法】沒有直接設定類似的規定,國內企業尤其需要註意獲得使用者的明示同意。

「正當利益」條款可能成為熟面孔

在對Meta的投訴中,NOYB指出了兩點不合規之處:

理由一是Meta對人工智能的描述過於寬泛, 沒有說明收集和處理使用者資訊的目的。Meta的私密政策只用了「人工智能技術」一詞,NOYB的創始人Max Schrems認為這相當於在說「我們會在數據庫中使用數據」。

「Meta 並沒有說明它將使用這些數據做什麽,也沒有設定任何限制。人工智能技術可能指一個簡單的聊天機器人,極具攻擊性的個人化廣告,甚至是殺傷級的無人機武器。」Max Schrems解釋。

理由二是使用者預設同意收集數據,拒絕過程復雜。以Facebook為例,使用者如果要拒絕平台收集自己的數據,需要經過設定和私密—私密中心—生成式AI—更多資訊—【Meta如何數據訓練大模型】五級頁面,才能在檔末尾找到一份反對表格。並且只有主動填寫表格,經由公司之手,使用者方能拒絕數據收集。

Meta對此辯稱,大模型需要反映「歐洲人民的語言、地理和文化背景多樣性」,因此公司使用者收集數據應該屬於【通用數據保護條例】規定的「正當利益」(legitimate interests),不用特別征得使用者同意。

通常來說,【通用數據保護條例】預設收集個人資訊是非法的, 但「正當利益」條款豁免了一些必須收集數據的情況, 不需要獲得使用者同意,這類合法收集行為可以出於個人利益、商業利益或者公共利益。

「業界一般會認為歐盟對個人資訊處理的限制很嚴格,其實透過正當利益條款留下了一定空間。」 世輝律師事務所合夥人王新銳從事數據合規業務多年,王新銳告訴21世紀經濟報道,正當利益條款設定復雜且靈活,需要透過一系列測試,可以說是一個解釋空間較大的合法性基礎。

此前Meta也援引過正當利益,當時辯護的是收集使用者數據來投放個人化廣告的行為,但歐盟法院最終反駁了這一說法,Max Schrems因此認為正當利益也難適用於訓練AI的數據抓取和使用。王新銳表示,對於一些新興技術的場景,其他的合法性基礎可能都難以成立,但正當利益還有一定的解釋空間,所以Meta會嘗試援引,估計「以後各類和AI有關的案件中,這個條款會反復出現。」

需要註意的是,與歐盟不同,中國個保法並沒有直接將「正當利益」寫入法定的豁免情況。 不過王新銳指出,歐盟【通用數據保護條例】規定的一些典型情形,中國透過其他條款也有所覆蓋。

浙江墾丁(北京)律師事務所律師程念告訴21世紀經濟報道,中國類似規定包括的情形是有限的:一類是突發衛生事件或者保護自然人的緊急情況,另一類是法定保密的行動,收集數據可以不獲取使用者同意,而企業的經營行為通常難以落入這一範圍。

使用者數據成為行業敏感點

「我們很失望」「這對歐洲創新、人工智能開發競爭來說是一個倒退,也進一步推遲了人工智能為歐洲人民帶來的好處。」Meta在網誌中抱怨,自己其實是跟隨了行業的做法——谷歌和OpenAI都已經在使用歐洲使用者的數據來訓練AI,而且「與同行相比,我們的數據收集方法更透明。」

不過,事實似乎並非如此, 謹慎對待使用者數據逐漸發展為一種共識性的做法。 比如ChatGPT率先允許使用者可以透過關閉聊天記錄功能,來拒絕自己的個人數據被官方拿去訓練,盡管這樣不可避免地會影響大模型回答的質素;6月19日,Adobe專門更新了服務條款,明確約定Adobe的軟件不會使用使用者的本地或雲端內容訓練生成式AI模型。

去年國內辦公軟件WPS曾嘗試在私密政策中新增:「我們將對您主動上傳的文件材料,在采取脫敏處理後作為AI訓練的基礎材料使用」,被使用者發現後引發集體抵制,而後WPS向使用者道歉,並承諾使用者文件不會被用於AI訓練。

目前明確會收集使用者數據訓練AI的科技巨頭有谷歌和X:為了推出馬斯克的x.AI公司,X在去年9月更新了私密政策,其中2.1條例中寫道:「我們可能會使用收集到的資訊和公開可用的資訊來幫助訓練我們的機器學習或人工智能模型」;去年7月,谷歌的私密政策同樣新增了一條「我們可能會收集公開的線上資訊或來自其他公共來源的資訊,幫助訓練Google的人工智能模型。」

不過,當時北京大成律師事務所高級合夥人鄧誌松對21世紀經濟報道表示,谷歌對收集與處理使用者個人資訊的範圍和目的作出了詳細說明,即使以歐盟GDPR項下更為嚴格的「告知—同意」規則為標準,谷歌的做法至少在形式上合規。

NOYB還指出,Meta此次希望收集的是2007年以來所有公開和非公開的個人資訊,覆蓋Facebook和Instagram社交媒體上的互動痕跡, 與AI公司想要用互聯網公開資料的一般性做法有所不同。

如何滿足合規要求,在尊重使用者權利的同時發展技術?王新銳向21世紀經濟報道強調,對於國內公司,如果想要收集使用者數據訓練AI,需要遵守【生成式人工智能服務管理暫行辦法】明確規定:涉及個人資訊的,應當取得個人同意或者符合法律。也就是說需要特別關註收集和使用使用者個人資訊前,是否已向使用者進行了明確告知並獲得了其同意。如未提前獲得使用者同意,則應有法定義務、公共利益等其他合法性基礎,否則存在相應的合規風險。

程念補充,基於使用者使用產品而收集獲取的個人資訊,除了需要明示同意,涉及敏感資訊還需要單獨同意; 此外要確保使用者能夠方便查詢、更正、刪除個人資訊並撤回同意,尤其是需要向使用者提供拒絕收集數據用於AI訓練的選項,確保使用者的知情權和選擇權。

SFC

本期編輯 黎雨桐

21君薦讀

AI定乾坤:Meta凈利翻倍卻暴跌,谷歌微軟超預期業績市場買賬

Meta一季度營收亮眼,朱克伯格「重倉」AI引股價暴跌

XR行業迎來「安卓時刻」:Meta開放Quest作業系統,空間計算大浪潮起