智東西(公眾號(hào):zhidxcom)
編譯 | 黃心如
編輯 | 李水青
智東西8月7日消息,外媒404 Media發(fā)布的報(bào)告表明,英偉達(dá)自2024年3月開始從YouTube和Netflix等熱門網(wǎng)站和平臺(tái)上盡可能地抓取數(shù)據(jù)來訓(xùn)練其AI產(chǎn)品,在報(bào)告中,一位英偉達(dá)發(fā)言人郵件回應(yīng)404 Media,申明其公司行為是合法的。
報(bào)告指出,英偉達(dá)未經(jīng)許可抓取的內(nèi)容包括電影和游戲鏡頭,這些行為可能讓使用其AI產(chǎn)品和工具的客戶面臨侵權(quán)的風(fēng)險(xiǎn)。盡管面臨外界的質(zhì)疑和擔(dān)憂,英偉達(dá)近期仍堅(jiān)稱其數(shù)據(jù)抓取行為“完全符合版權(quán)法的文字和精神”。
一、被曝違規(guī)采集數(shù)據(jù),英偉達(dá)回應(yīng):行為合法
與其他AI工具開發(fā)商一樣,英偉達(dá)需要可以用于訓(xùn)練的數(shù)據(jù)供其文本、視頻和音頻生成器“學(xué)習(xí)”如何創(chuàng)建內(nèi)容。而數(shù)據(jù)抓取通常是指在沒有獲得創(chuàng)作者許可的情況下,將現(xiàn)有的視頻、文本和音頻輸入到訓(xùn)練模型中的做法。
這項(xiàng)技術(shù)意味著他們可以未經(jīng)YouTube和Netflix(以及在這些平臺(tái)上擁有媒體賬號(hào)的公司)同意就獲取其受版權(quán)保護(hù)的資料。
美國(guó)和歐盟的監(jiān)管機(jī)構(gòu)仍在評(píng)估數(shù)據(jù)抓取行為是否違反版權(quán)法相應(yīng)法規(guī)。404 Media的報(bào)告強(qiáng)調(diào)了科技公司在生成AI技術(shù)方面對(duì)于版權(quán)法的松懈態(tài)度,以及這些選擇可能對(duì)娛樂和游戲等行業(yè)造成的影響。
該媒體在披露出的內(nèi)部消息中,發(fā)現(xiàn)了一些公司員工對(duì)于這種做法的擔(dān)憂。盡管存在這些擔(dān)憂,但英偉達(dá)告訴404 Media,其抓取指令“完全符合版權(quán)法的文字和精神……這種合理使用的保護(hù)措施允許我們將作品用于革新性的目的,比如模型訓(xùn)練。”
游戲開發(fā)商及其母公司是版權(quán)持有人,而YouTube是該行業(yè)的重要平臺(tái),他們的作品被使用,但他們對(duì)此沒有任何話語(yǔ)權(quán)。英偉達(dá)是一家經(jīng)常利用這些工作室游戲和大型平臺(tái)來推廣其服務(wù)和產(chǎn)品的公司,這樣的無授權(quán)數(shù)據(jù)抓取行為無疑是一種嚴(yán)重的背叛行徑。
二、英偉達(dá)內(nèi)部流程曝光,高層預(yù)先設(shè)法規(guī)避負(fù)面
一名接受媒體采訪的員工聲稱,他們和其他人被告知要抓取完整的視頻,以幫助訓(xùn)練這家科技公司的AI模型,而游戲視頻尤為受到工程師們的青睞。獲取上述的視頻素材用于數(shù)據(jù)庫(kù)的創(chuàng)建,其中就涉及了與英偉達(dá)的GeForceNow云服務(wù)合作。
在一次使用Slack進(jìn)行的對(duì)話中,高級(jí)研究分析師吉姆范(Jim Fan)指出了該項(xiàng)云服務(wù)有著可以用于捕獲和存儲(chǔ)視頻的流媒體功能。他提到,所有這些“高質(zhì)量的游戲視頻”都是“非常有用”的數(shù)據(jù)。
“我們將與GeForceNow云服務(wù)和相關(guān)工程團(tuán)隊(duì)密切合作,設(shè)置實(shí)時(shí)游戲數(shù)據(jù)捕獲、擴(kuò)展渠道并對(duì)其進(jìn)行處理以進(jìn)行訓(xùn)練。”他解釋說。
然而,據(jù)稱,員工提出的擔(dān)憂遇到了項(xiàng)目經(jīng)理的保證,即抓取數(shù)據(jù)是一項(xiàng)“行政決策”,不必?fù)?dān)心。至于“公開的法律問題”(例如違反YouTube的服務(wù)條款)將在未來得到解決。
在404 Media的報(bào)道中,AI研究人員之間的內(nèi)部文件和Slack對(duì)話顯示了英偉達(dá)積極避免負(fù)面新聞的努力。研究副總裁Ming-Yu Liu強(qiáng)調(diào)我們將使用所有可下載的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),鑒于我們不會(huì)發(fā)表任何內(nèi)容,所以不會(huì)有“負(fù)面情緒”。
Ming-Yu Liu寫道:“我們?cè)谶@里進(jìn)行的活動(dòng)不會(huì)在任何層面對(duì)外公開”。他和其他員工還一起開發(fā)了自己的YouTube數(shù)據(jù)抓取工具和一個(gè)API賬號(hào)來幫助完成這一工作。
結(jié)語(yǔ):英偉達(dá)AI引爭(zhēng)議, 實(shí)為AI發(fā)展與法律博弈
在監(jiān)管機(jī)構(gòu)定義生成AI領(lǐng)域中侵犯版權(quán)的明確邊界之前,英偉達(dá)和其他公司可能會(huì)繼續(xù)在法律灰色地帶運(yùn)作。正如麻省理工學(xué)院的Robert Mahari告訴404的那樣,證明數(shù)據(jù)抓取違規(guī)“在技術(shù)上是非常困難的”。
他建議道:“就激勵(lì)措施而言,公司最佳的政策是不要告訴人們你訓(xùn)練了什么,只要保守秘密,要證明任何事情都會(huì)非常困難。”
來源:Game Developer,404 Media