2025年6月23日月曜日、人工知能(AI)企業Anthropicが、ChatGPTと同種のAIアシスタントClaudeの開発を目的として、印刷された書籍を何百万ドルもの費用をかけて物理的にスキャンしていたことが、裁判文書によって明らかにされた。
その過程において同社は、数百万冊の書籍のページを物理的に切り取り、スキャンによってデジタルファイル化し、原本を廃棄した。その目的はたったひとつ、AIに学習させることだった──これは、広範囲のフェアユースに対してどのような影響を及ぼすのかということに加えて、著作権のフェアユースに関する判決のなかに埋もれていたその詳細だ。
法をかいくぐってもスキャンする
Anthropicは、Google Booksにおけるスキャン計画のパートナーシップ責任者だったトム・ターヴィーを24年2月に雇用し、「全世界の書籍をすべて入手する」任務を課した。32ページにわたる判決文にはその経緯が記されている。この戦略的な雇用は、グーグルが法的責任を問われることなく書籍のデジタル化をやり遂げたことを受けて、そのアプローチ方法──著作権をめぐる裁判を無事にくぐり抜け、フェアユースについてのカギとなる判例を打ち立てたスキャン工程──の再現を目論んだもののようだ。
デジタル化の過程で書籍を破壊していくというのは一般的に行なわれていることだが、Anthropicのやり方が普通ではなかったのは、その規模が非常に大掛かりだったと記録されている点だ。対照的にGoogle Booksでは、書籍を断裁することなくカメラを用いてスキャンするという、特許を取得した作業工程によって、図書館から借り出した何百万冊もの本をスキャンし、その後返却していた。
断裁を伴う方法はより高速でより低コストであるがゆえに、Anthropic社内では、物理的な書籍そのものを保存する必要性など一顧だにされなかったということなのだろう。これは競争の激しい業界においては、いかに低いコストで安易な解決策が求められるのか、ということを示す実例でもある。
結論から言えば、ウィリアム・アルサップ判事は、断裁を伴うこのスキャン作業について、フェアユースと認められるという判決を下した──ただしその根拠は、Anthropicがまず書籍を合法的に購入し、スキャンした後にそれを破棄し、デジタル化したファイルを頒布することなく社内で保管したから、という点に絞られる。判事はこの工程を、形式を変換することで「省スペース化」することになぞらえ、トランスフォーマティブユース(変容的利用)に当たると判断したのだ。
もしAnthropicが初めからこの方法を貫いていれば、AIをめぐるフェアユースを法的に認めた最初の判例を打ち立てられていたかもしれない。だがそうはならず、それ以前に行なっていた著作権侵害行為によって、同社はその企業イメージを下げることになった。
だが、AI業界と著作権に詳しくない読者なら、なぜひとつの企業が何百万ドルもの費用をかけてまで書籍を破壊するのだろうかと首を傾げるかもしれない。奇妙な法律上の駆け引きの背後には、より根本的な要因が潜んでいるのだ。つまりAI業界は、高品質なテキストへの留まるところを知らない渇望を抱えているということだ。
Anthropic、AI著作権訴訟の和解で少なくとも15億ドルを支払いへ
Anthropicは無断で取得した著作物1件ごとに、3,000ドルを支払うことになる。 同社はAI学習データ収集の初期に、海賊版をダウンロードしていたとされる。
高品質なAI学習用データの取り合い
Anthropicが何百万冊もの書籍をスキャンしたがる理由を理解するためには、ChatGPTやClaudeを動かしているような大規模言語モデル(LLM)を構築するために、AIリサーチャーたちが莫大な数の言葉をニューラルネットワークに与えていることを知っておかなければならない。AIシステムは学習の過程においてテキストを繰り返し処理することで、単語と概念とのあいだに統計学的な関係を構築していくのだ。