인공지능 학습 맥락에서의 TDM 면책과 공정이용에 관한 소고 - 생성형 인공지능의 대두에 따른 저작권 문제의 변화된 양상을 중심으로
A TDM Exceptions and Fair Use in the Context of AI Training : Focusing on the Changed Aspects of Copyright Problems following the Advent of the Generative AI
학습된 인공지능 모델의 내부 표현들로부터는 단지 군집화되고 통계적인 묘사에불과한 정보만을 발견하게 되고, 학습데이터의 복제물이 학습된 모델의 어딘가에 보관되어 있다고는 평가할 수 없다. 이러한 기술적 특징은 학습용 데이터세트를 구축할때 저작물성 있는 콘텐츠의 권리처리에 문제가 있는 경우 인공지능 모델 학습과정에서 이를 바로잡는 것을 매우 어렵게 만든다. 특히, 일부 국가에서는 TDM 면책을 적용받는 비상업적, 연구목적의 학습용 데이터세트 구축을 통해 데이터 세탁(data-laundering)이 발생할 수 있다. 이를 통해 권리자와 학습용 데이터세트의 관계는절연될 수 있고, 또한 학습된 모델이 산출한 생성물과의 관계에서도 의거성과 실질적유사성을 인정하기 곤란하여 또다시 단절될 수 있다. 특히, 생성형 인공지능이 주도하는 TDM은 더 이상 단지 학습데이터의 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하고 새로운 지식을 발견하는 것에 그치는 것이 아니다. 생성형 인공지능은 TDM에 힘입어 새롭고 혁신적인 콘텐츠를 생성해낸다. 이러한 인공지능 생성물이 학습데이터로 이용된 저작물이 속한 특정 시장에서서로 경쟁하는 관계에 놓일 때는 공정이용 요건을 쉽게 달성하기는 곤란할 것이다. 게다가 합성데이터의 대두를 고려하면 인공지능 생성물은 향후 인공지능 학습데이터시장에서조차 저작물성 있는 콘텐츠를 완전히 대체하게 될 수 있다. 한편, 생성형 인공지능 맥락에서 특히 중요한 학습데이터는 미세 조정(fine-tuning) 을 위한 것이다. 이러한 학습데이터의 경우 최종 인공지능 생성물의 표현형식과 유사한 형태의 콘텐츠일 경우가 많을 것이고, 이것이 저작물성 있는 경우 이용자의 면책여지는 줄어들 수 있고 오히려 권리자의 협상력이 강화될 수 있다. 따라서, 저작권법적 관점에서는 이러한 상황을 발견하는 것을 기대할 필요가 있다. 지금은 어느 때보다도 TDM에 대한 포괄적 면책 규정 도입의 당위와 공정이용 요건에 대한 신중한 접근이 요구된다.
From the internal representations of a trained AI model, we can only discover information that is merely clustered and statistically described, and we cannot evaluate that a reproduction of the training data is retained somewhere in the trained model. These technical characteristics make it very difficult to correct it in the AI model training process when there is a legal problem with the licensing of copyrighted content when building a training dataset. In particular, in some countries, data laundering can occur through the building of a non-commercial, research-purpose training dataset that applies TDM exceptions. Through this, the relationship between the rights holder and the training dataset can be insulated, and it can also be difficult to recognize the origin and substantial similarity in the relationship with the outputs generated from the trained model, which can be severed again. Especially, TDM driven by generative AI is no longer limited to analyzing statistical representation or patterns of training data to extract valuable information and discover new knowledge. Generative AI creates new and innovative content through TDM. If these AI-generated works are in a competitive relationship in a specific market where the copyrighted works used as training data belong, it will be difficult to easily achieve fair use requirements. Moreover, considering the emergence of synthetic data, AI-generated works may completely replace copyrighted content even in the future AI training data market. On the other hand, in the context of generative AI, particularly important training data is for fine-tuning. In the case of such training data, it is likely to be content similar in form to the final AI-generated outputs, and if it is copyrighted, the user’s exemption may decrease and the rights holder’s bargaining power may increase. Therefore, from a copyright law perspective, it is necessary to expect to find such situations. Now, more than ever, there is a need for a careful approach to the introduction of comprehensive exception regulations for TDM and fair use requirements.
Ⅰ. 문제점
Ⅱ. TDM 면책
Ⅲ. 공정이용
Ⅳ. 결론