AI Scraping War | チーム八ちゃん

AI Scraping War

投稿日: 9月 17, 2025 作成者: teamhacchan

　ChatGPT を始めとする「生成ＡＩ」が社会全体に大きな衝撃を与えている中で、今「AI Scraping War」（ＡＩデータ収集戦争）が勃発しています。war の部分を、battle、fight などに置き換える場合もあります。インターネット上の情報を大量収集して利用するＡＩ企業に対し、その情報・コンテンツの所有者（ニュースを発行する会社や個人、芸術家、ソーシャルメディアなど）が権利・利益の侵害を訴えて争う「戦争」を意味します。英語でscrape は「かき集める」という意味ですが、ここではＡＩが多様なコンテンツから大量のデータを収集して、｢ただ乗り」でＡＩモデルを開発・進化させることを指しています。絵画、写真、映像、音楽などの作者やハリウッド映画会社が、ＡＩ企業が作品を無断でかき集めて（scrape）悪用しているとして、使用禁止と損害賠償の支払いを求めているのです。メディア企業は、コンテンツの使用に対する補償を求めて提訴したり、ライセンス契約を交わしたり、あるいはその両方を行ってきました。多くの企業は、ＡＩボットがウェブサイトなどから情報を大量抽出する行為（scraping）を止めるよう丁重に要請しています。『ニューヨーク・タイムズ』紙は ChatGTPを保有するOpen AI社と出資元のマイクロソフトを相手取って、ＡＩが無断で同紙の記事を利用しているのは著作権法違反であるとして、数１０億ドルの損害賠償と共に、収集したデータの破棄を求めています。コンテンツを提供するメディアや出版社などは、新たなＡＩツール向けにコンテンツを収集するテクノロジー企業から、自社のウェブサイトを守る取り組みを強化しています。このように、ＡＩモデルの開発を目的とするデータの大量収集行為について、ＡＩ企業とニュースを発行する会社・個人・ソ－シャルメディアや芸術家との間で増大している紛争を、英語で「AI Scraping War」と呼ぶのです。近年、ウェブ上には膨大な情報が集積されており、その中から必要な情報を自動的に抽出するテクニックとして「スクレイピング」（scraping）は広く知られています。しかし、この行為が利用規約や法律の観点から問題視されるケースも増えています。特にChatGPTのような自然言語生成ＡＩを用いた場合、利用者は注意深く行動する必要があります。

　ＡＩ学習によるインターネット上の記事の｢ただ乗り」を巡る著作権侵害の訴訟は、米国ではすでに４０件以上が報告されていますが、日本でも初めて、「読売新聞社」がインターネット上に公開されている記事を無断で使用したとして、米国の新興企業のＡＩ事業者「パープレキシティ社」を相手取って約２１億６，０００万円の損害賠償などを求めて東京地裁に提訴しました。今後同種の動きが広がる可能性もあると感じていましたが、やはり案の定、「日本経済新聞社」と「朝日新聞社」が、「パープレキシティ」に対して、記事の利用差し止めと損害賠償などを求める訴訟（４４億円）を起こしています。

　スクレイピング自体は必ずしも違法ではありませんが、収集対象のウェブサイトが明示的に禁止している場合や、著作権で保護されているコンテンツを無断で収集する行為は、法的トラブルを招く可能性があります。例えば、多くのニュースサイトやデータベンダーは利用規約に「自動取得禁止」を含めており、そのルールに抵触すれば利用規約違反になり得ます。さらに、国や地域によってはデータ収集に関する固有の法規制が存在し、EUではGDPRが個人データの扱いに厳しい制約を課しています。

　例えば、ChatGPTを介して特定サイトの情報を無断で集積・要約し、それを商用に利用するとなれば、著作権侵害や規約違反につながるリスクがあります。また、API利用条件や外部ツールとの連携規約にも目を通すべきです。外部のスクレイピングツールとChatGPTのやり取りが規制されていたり、ChatGPTに渡すデータが利用ポリシー違反になる場合も考えられます。特に、ユーザー情報などの個人データを大量に抽出してＡＩモデルにフィードバックする行為は、データ保護法制上の問題を引き起こします。こうした禁止事項を避けるためには、ChatGPTへの入力データを厳選し、収集方法を工夫することが求められます。ウェブサイトの公的APIを利用して合法的なアクセスを行ったり、対象サイトで明示的に許可された形でのみデータを取得するなど、正当なプロセスを踏むことで、規約違反や法的問題を回避できます。今は報道機関が正当な対価を受け取る形で、ＡＩ事業者と提携する動きも見られます。ＩＴ大手のアマゾン・コムはニューヨークタイムズと提携し、記事の使用料を支払うことで、同社のＡＩに記事を学習させることを、年間使用料少なくとも約３０億円で契約しました。ＡＰ通信も２０２３年にオープンAIと過去の記事の提供を提携しています。

　ちなみに、ChatGPTのような生成ＡＩは、莫大な開発費や使用電力やその維持に大金がかかることから、経営的にも苦境に立たされている、という報道もあります。♥♥♥

【補遺１】　　アメリカではチャットＧＰＴなど対話型生成ＡＩに対する精神的依存を強め、自殺や殺人事件などに発展するケースが相次いでいます。カリフォルニア州では、１６歳の息子が自殺したのはＡＩとの対話の影響があったとして、両親がオープンＡＩを提訴しました。報道によれば、ＡＩとやりとりする中で、自殺の方法を助言し、遺書の下書きまで提供していたといいます。未成年の精神衛生への悪影響が懸念される中、親が利用状況を管理できる監視機能「ペアレンタルコントロール」の仕組みを取り入れ、対策を強化するとのことです。

【補遺２】　　様々な生成ＡＩが開発される中、ＡＩ（artificial intelligence）の複数形はどうなるのか？という疑問が湧いてきます。intelligenceは不可算名詞ですから、普通はsを付けるのではなく、toolsやmodelsやsystemsといった具体的な可算名詞を足すことで複数形を表現することができます。しかし最近では、AIsやaritificial intelligencesといった変則的な複数形を目にすることも増えてきました。今後の動向には注目です。♠♠♠

関連

カテゴリー: 日々の日記パーマリンク

コメントを残すコメントをキャンセル