GitHubが提供するAI支援コーディング機能「GitHub Copilot」が話題となっています。
より速く、より少ない作業でコードを書くことを支援する注目の機能ですが、この機能に反対するWebページ「Please don't upload my code on GitHub(GitHubに私のコードをアップロードしないでください)」が作成されている事がわかりました。
このページでは、GitHub Copilotに関し、コード作成支援のための情報をGitHubリポジトリからスキャンして学習している点に問題があると指摘しています。GitHub Copilotは、何十億行もの公開コードで訓練されていますが、訓練対象となっているとなっているのは、人間の書いたコードです。
問題は公開されているコードが、必ずしもパブリックドメインで提供されているわけではなく、ソースコードのライセンスが個別に異なる点にあります。
コピーレフト(GPLなど)ライセンスで提供されているコードが提案され、そのコードを使用する場合、コピーレフトのコードがプロプライエタリなプロジェクトや、コピーレフトでないプロジェクトに含まれることがあり、これは、ライセンス条項とオリジナルコードの作者の知的財産の両方を侵害するものだとの主張です。またもっと寛容なライセンス(ISCなど)でも、著作者情報やライセンスに関する通知が一切行われないという問題があります。
オープンソースプロジェクトのソースコードはライセンスによっては、ソースコードを再配布する事が法的に許されているものもあり、GitHubに他の人が作成したコードを合法的に登録することができますが、これは、Copilotによる使用を考えると問題になります。そこで、このページではオープソースの開発者として、他の人の書いたソースコードをGitHubにアップロードしないように呼びかけているのです。
これは法的な文書ではなく、お願いであり、Webサイトやリポジトリに以下のマークアップを追加することができると提案しています。
Hacker Newsには、「CopilotがGPLコードに「触発」されたコードを生成せず、GPLコードをそのまま吐き出してしまうことがある」というコメントや(参考)、「Copilotはコード「盗む」ことも「複製する」こともせず、単にそこから学ぶだけだ。学習を防ぐための試みは非合理的だ」という批判的なコメントなどさまざまな意見が寄せられています。
AIによる画像生成と同様に簡単には結論がでない問題かもしれません。