AI Scraping War

 ChatGPT を始めとする生成 AI」 が社会全体に大きな衝撃を与えている中で、今「AI Scraping War」(AIデータ収集戦争)が勃発しています。war の部分を、battlefight などに置き換える場合もあります。インターネット上の情報を大量収集して利用する AI 企業に対し、その情報・コンテンツの所有者(ニュースを発行する会社や個人、芸術家、ソーシャルメディアなど)が権利・利益の侵害を訴えて争う「戦争」を意味します。英語でscrape は「かき集める」という意味ですが、ここではAI が多様なコンテンツから大量のデータを収集して、「ただ乗り」でAI モデルを開発・進化させることを指しています。絵画、写真、映像、音楽などの作者やハリウッド映画会社が、AI企業が作品を無断でかき集めて(scrape)悪用しているとして、使用禁止と損害賠償の支払いを求めているのです。メディア企業は、コンテンツの使用に対する補償を求めて提訴したり、ライセンス契約を交わしたり、あるいはその両方を行ってきました。多くの企業は、AIボットがウェブサイトなどから情報を大量抽出する行為(scraping)を止めるよう丁重に要請しています。『ニューヨーク・タイムズ』紙は ChatGTPを保有するOpen AI社と出資元のマイクロソフトを相手取って、AIが無断で同紙の記事を利用しているのは著作権法違反であるとして、数10億ドルの損害賠償と共に、収集したデータの破棄を求めています。コンテンツを提供するメディアや出版社などは、新たなAIツール向けにコンテンツを収集するテクノロジー企業から、自社のウェブサイトを守る取り組みを強化しています。このように、AIモデルの開発を目的とするデータの大量収集行為について、AI企業とニュースを発行する会社・個人・ソ-シャルメディアや芸術家との間で増大している紛争を、英語で「AI Scraping War」と呼ぶのです。近年、ウェブ上には膨大な情報が集積されており、その中から必要な情報を自動的に抽出するテクニックとして「スクレイピング」(scraping)は広く知られています。しかし、この行為が利用規約や法律の観点から問題視されるケースも増えています。特にChatGPTのような自然言語生成AIを用いた場合、利用者は注意深く行動する必要があります。

 AI学習によるインターネット上の記事の「ただ乗り」を巡る著作権侵害の訴訟は、米国ではすでに40件以上が報告されていますが、日本でも初めて、読売新聞社」がインターネット上に公開されている記事を無断で使用したとして、米国の新興企業のAI事業者「パープレキシティ社」を相手取って約21億6,000万円の損害賠償などを求めて東京地裁に提訴しました。今後同種の動きが広がる可能性もあると感じていましたが、やはり案の定、日本経済新聞社」朝日新聞社」が、「パープレキシティ」に対して、記事の利用差し止めと損害賠償などを求める訴訟(44億円)を起こしています。

 スクレイピング自体は必ずしも違法ではありませんが、収集対象のウェブサイトが明示的に禁止している場合や、著作権で保護されているコンテンツを無断で収集する行為は、法的トラブルを招く可能性があります。例えば、多くのニュースサイトやデータベンダーは利用規約に「自動取得禁止」を含めており、そのルールに抵触すれば利用規約違反になり得ます。さらに、国や地域によってはデータ収集に関する固有の法規制が存在し、EUではGDPRが個人データの扱いに厳しい制約を課しています。

 例えば、ChatGPTを介して特定サイトの情報を無断で集積・要約し、それを商用に利用するとなれば、著作権侵害や規約違反につながるリスクがあります。また、API利用条件や外部ツールとの連携規約にも目を通すべきです。外部のスクレイピングツールとChatGPTのやり取りが規制されていたり、ChatGPTに渡すデータが利用ポリシー違反になる場合も考えられます。特に、ユーザー情報などの個人データを大量に抽出してAIモデルにフィードバックする行為は、データ保護法制上の問題を引き起こします。こうした禁止事項を避けるためには、ChatGPTへの入力データを厳選し、収集方法を工夫することが求められます。ウェブサイトの公的APIを利用して合法的なアクセスを行ったり、対象サイトで明示的に許可された形でのみデータを取得するなど、正当なプロセスを踏むことで、規約違反や法的問題を回避できます。今は報道機関が正当な対価を受け取る形で、AI事業者と提携する動きも見られます。IT大手のアマゾン・コムニューヨークタイムズと提携し、記事の使用料を支払うことで、同社のAIに記事を学習させることを、年間使用料少なくとも約30億円で契約しました。AP通信も2023年にオープンAIと過去の記事の提供を提携しています。

 ちなみに、ChatGPTのような生成AIは、莫大な開発費や使用電力やその維持に大金がかかることから、経営的にも苦境に立たされている、という報道もあります。♥♥♥

【補遺1】  アメリカではチャットGPTなど対話型生成AIに対する精神的依存を強め、自殺や殺人事件などに発展するケースが相次いでいます。カリフォルニア州では、16歳の息子が自殺したのはAIとの対話の影響があったとして、両親がオープンAIを提訴しました。報道によれば、AIとやりとりする中で、自殺の方法を助言し、遺書の下書きまで提供していたといいます。未成年の精神衛生への悪影響が懸念される中、親が利用状況を管理できる監視機能「ペアレンタルコントロール」の仕組みを取り入れ、対策を強化するとのことです。

【補遺2】  様々な生成AIが開発される中、AI(artificial intelligence)の複数形はどうなるのか?という疑問が湧いてきます。intelligence不可算名詞ですから、普通はsを付けるのではなく、toolsやmodelsやsystemsといった具体的な可算名詞を足すことで複数形を表現することができます。しかし最近では、AIsやaritificial intelligencesといった変則的な複数形を目にすることも増えてきました。今後の動向には注目です。♠♠♠

カテゴリー: 日々の日記 パーマリンク

コメントを残す