学習されること自体が嫌だという気持ちを批判できないし、生成されるものが観賞目的の映像や音ということならば、多少壊れていても社会への影響は大したことがないかもしれない。しかし特定のAIへの攻撃に使われるということも含めて、AI開発者にとってはリスクとして捉えられている(例えばIBM社)。

毒されたデータが世の中に大量に存在することとなると、まともな生成AIが作れなくなるのではないかと心配になる。きれいなデータだけが使えるのならよいのだろうが(その点でもデータ集合物の取引が活発に行われるとよいが)、AI開発者がネットをクロールしてデータを収集するような場合には、毒されたデータを収集・学習しないように、データをより分けることができるのだろうか。きっと今はより分けられない。せめて「このサイトのデータにはAIの学習を妨げるデータが織り込まれています」とか「毒饅頭注意」といった意味合いで機能するタグを標準化するとか、何か要るのではなかろうか。

学習するデータが偏っていた場合には、偏った情報を生成するAIができるだろうから、なるべく偏らないように多くのデータを学習させる必要がありそうだ(メディアで流れるバイアスのかかった言説だけを拾うと間違いなく偏向することだろう。人間と同じ...)。そうすると、よりわけるタグを使えるようになったとして、学習されたくないデータが増えることで、データが偏り、AIが偏向しがちになってしまわないだろうか(杞憂かな)。AIの利用者に過ぎない私としては、AIが偏らないように多くの様々なデータを学習させることができるような社会環境であって欲しい。

その点に関して、前記の内閣府「中間とりまとめ」では「AIと知財が両立するエコシステム」を説いている。AI開発はビジネスによる場合が殆どなのだろうから、ビジネスライクにお金で解決するという方向に流れていくというのは自然の流れなのだろう。騒ぎも知財(著作権)関係で起きているし、「中間とりまとめ」をとりまとめた会合も、ドラフトを書いた人も知財関係者だし(内閣府知的財産戦略推進事務局)、タイトルが「知財」だから仕方がないが、何も「知財」に限らない。著作権はあるが法で権利制限されているもののみならず、そもそも著作権のないものも含めて考えるしかないのではないか。知財がなければそもそもタダでよい、と言ってみても、知財があるのかないのか、特に著作物なのかそうでないのかなど、簡単に見分けられるのならいいがそうではない。AI開発者は、学習させるデータが著作物であるのかどうかを厳密には判断できない(自称著作物はごまんとある)。是非はともかく、いずれも情報財として同じ土俵で取り扱われ、その情報を使う場合にはお金を払って使うということが合理的である気がする。

その支払いの仕組み作りを誰がやるのかということかもしれない。ずっと昔、40年位前に提唱された「超流通」を思い出した。

この記事をシェア

Previous Article

November 26, 2024 • 4:47PM

Topics

トピックがありません。