OpenAI는 최근 CTO가 유튜브 데이터로 Sora 동영상 생성기를 훈련시켰는지 여부에 대해 명확히 밝히지 않아 화제가 되었지만, 대부분의 거대 기술 기업인 OpenAI, Google, Meta가 잠재적으로 무단 데이터 스크래핑에 손을 댔거나 적어도 이를 심각하게 고려하고 있는 것으로 보입니다.
뉴욕타임즈에 따르면, OpenAI는 GPT-4 AI 모델 학습을 위해 자사의 Whisper 기술을 이용해 100만 시간 이상의 YouTube 동영상을 문자로 전사했습니다. 그런데 YouTube를 소유한 구글도 유사한 행위를 했기 때문에, 구글은 OpenAI를 추궁하지 않았습니다. 이는 창작자들의 저작권을 잠재적으로 위반할 수 있는 상황이었습니다.
이번 주 블룸버그와의 인터뷰에서 YouTube CEO 닐 모한은 회사의 이용 약관이 "전사본이나 동영상 클립 다운로드를 허용하지 않으며, 이는 명확한 약관 위반"이라고 말했습니다. 그러나 OpenAI가 YouTube 데이터를 스크랩했는지에 대해 직접 묻자 모한은 모호한 답변을 내놓았습니다. "그것이 사용되었거나 사용되지 않았다는 보고를 보았지만, 저 자신은 그에 대한 정보가 없습니다."라고 말했습니다.
타임즈 보고서는 첨단 AI 모델 학습을 위해 더 많은 데이터가 필요하고, 이를 얻기 위해 IT 업계 거대 기업들이 때때로 의심스러운 방법을 고려했다는 점에 주목했습니다. OpenAI CEO 샘 알트먼이 언급했듯이, 데이터는 결국 "고갈"될 것이며, 이는 수십억 달러 가치의 이런 기업들의 제품 유용성을 의문시하게 만들 것입니다.
예를 들어 Meta는 AI가 출판사 Simon & Schuster의 책을 수집할 수 있도록 그 회사를 인수하는 방안을 논의했습니다. 또한 내부 회의 녹음 내용에 따르면 필요한 것을 그냥 긁어모아 사람들이 소송을 제기하지 않기를 바라는 방안도 고려했습니다. 임원들은 2015년 판결, 즉 Google이 Google Books를 위해 책을 디지털화한 것이 저작권 법을 위반하지 않았다는 판결에 주목했습니다.
한편, 구글은 휴일 주말에 서비스 약관을 변경하여 공개 Google 문서 도구, Google 지도의 레스토랑 리뷰 및 기타 인터넷 데이터를 AI 학습에 사용할 수 있도록 했습니다. 구글은 "실험적인 프로그램"의 일환으로 문서 데이터를 사용했다고 타임즈에 밝혔습니다.
뉴욕타임즈는 이미 이 데이터 스크래핑에 대해 반발한 바 있습니다. 타임즈는 AI 모델 훈련에 타임즈 콘텐츠를 사용했다는 이유로 OpenAI와 파트너인 Microsoft를 고소했으며, 이 사건은 현재 법원에서 진행 중입니다.
※ 퀘이사존 공식 기사가 아닌 해외 뉴스/기사를 번역한 것으로, 퀘이사존 견해와 주관은 포함되어 있지 않습니다. |