AI에 맞서 데이터 반란이 일어나다 | 산시성 소면기 유한회사

지원 대상

AI 회사가 동의 없이 온라인 콘텐츠를 소비하는 것에 진저리를 치고 있는 팬픽션 작가, 배우, 소셜 미디어 회사, 언론사 등이 이에 반발하고 있습니다.

시라 프렌켈(Sheera Frenkel)과 스튜어트 A. 톰슨(Stuart A. Thompson)

Sheera Frenkel과 Stuart Thompson은 온라인 잘못된 정보와 디지털 데이터에 대해 보고합니다.

Kit Loffstadt는 20년 넘게 '스타워즈' 영웅과 '뱀파이어 학살자 버피' 악당의 대체 세계를 탐구하는 팬픽을 집필했으며 자신의 이야기를 온라인에서 무료로 공유해 왔습니다.

그러나 5월, Loffstadt 씨는 데이터 회사가 자신의 이야기를 복사하여 바이러스 챗봇인 ChatGPT의 기반이 되는 인공 지능 기술에 제공했다는 사실을 알고 자신의 창작물 게시를 중단했습니다. 당황한 그녀는 잠긴 계정 뒤에 자신의 글을 숨겼습니다.

Loffstadt 씨는 또한 지난 달 AI 시스템에 대한 반란 행위를 조직하는 데 도움을 주었습니다. 수십 명의 다른 팬픽 작가들과 함께 그녀는 작가들의 작품을 AI 기술에 제공하는 데이터 수집 서비스를 압도하고 혼란시키기 위해 온라인에 불경스러운 이야기를 홍수처럼 퍼뜨렸습니다.

영국 사우스요크셔 출신의 42세 성우 로프스타트(Loffstadt) 씨는 “우리 각자는 우리 창의력의 결과물이 기계가 원하는 대로 수확하는 것이 아니라는 것을 보여주기 위해 할 수 있는 모든 일을 해야 합니다.”라고 말했습니다.

팬픽 작가들은 기술에 대한 열풍이 실리콘 밸리와 전 세계를 사로잡으면서 AI 시스템에 맞서 반란을 일으키고 있는 하나의 그룹일 뿐입니다. 최근 몇 달 동안 Reddit 및 Twitter와 같은 소셜 미디어 회사, New York Times 및 NBC News를 포함한 언론 기관, Paul Tremblay와 같은 작가, 여배우 Sarah Silverman은 모두 AI가 허가 없이 데이터를 빨아들이는 것에 반대하는 입장을 취했습니다.

그들의 시위는 다양한 형태를 취했습니다. 작가와 예술가는 자신의 작품을 보호하기 위해 파일을 잠그거나 AI 생성 콘텐츠를 게시하는 특정 웹사이트를 보이콧하고 있는 반면 Reddit과 같은 회사는 데이터 액세스에 대한 비용을 청구하기를 원합니다. 올해 AI 기업을 상대로 최소 10건의 소송이 제기됐다. AI 기업이 동의 없이 아티스트의 창작물에 대한 시스템을 훈련시켰다는 혐의다. 지난 주 Silverman 씨와 저자인 Christopher Golden, Richard Kadrey는 AI가 자신의 작업을 사용하는 것에 대해 ChatGPT 제작자인 OpenAI와 다른 사람들을 고소했습니다.

반란의 중심에는 이야기, 예술 작품, 뉴스 기사, 게시판 게시물, 사진 등 온라인 정보가 아직 활용되지 않은 상당한 가치가 있을 수 있다는 새로운 이해가 있습니다.

텍스트, 이미지 및 기타 콘텐츠를 생성하는 '생성 AI'로 알려진 AI의 새로운 물결은 인간과 같은 산문을 생성할 수 있는 대규모 언어 모델과 같은 복잡한 시스템 위에 구축됩니다. 이러한 모델은 사람들의 질문에 답하고, 글쓰기 스타일을 흉내내며, 코미디와 시를 만들어낼 수 있도록 온갖 종류의 데이터에 대해 훈련을 받았습니다.

이로 인해 기술 회사들은 AI 시스템에 공급할 더 많은 데이터를 찾기 시작했습니다. Google, Meta 및 OpenAI는 기본적으로 팬픽션의 대규모 데이터베이스, 수많은 뉴스 기사 및 도서 컬렉션을 포함하여 인터넷 전체에서 수집된 정보를 사용했으며 그 중 대부분은 온라인에서 무료로 제공되었습니다. 기술 산업 용어로 이를 인터넷 "스크래핑"이라고 합니다.

2020년에 출시된 AI 시스템인 OpenAI의 GPT-3는 5000억 개의 "토큰"에 걸쳐 있으며, 각 토큰은 주로 온라인에서 발견되는 단어의 일부를 나타냅니다. 일부 AI 모델은 1조 개 이상의 토큰에 걸쳐 있습니다.

인터넷을 스크랩하는 관행은 오랫동안 이어져 왔으며 이를 수행한 회사와 비영리 단체에 의해 대부분 공개되었습니다. 그러나 데이터를 소유한 회사에서는 이를 잘 이해하지 못했거나 특히 문제가 있는 것으로 간주하지 않았습니다. ChatGPT가 11월에 데뷔하고 대중이 챗봇을 지원하는 기본 AI 모델에 대해 더 많이 알게 된 이후 상황이 바뀌었습니다.

AI 회사인 Nomic의 설립자이자 CEO인 Brandon Duderstadt는 “여기서 일어나고 있는 일은 데이터 가치의 근본적인 재편성입니다.”라고 말했습니다. “이전에는 데이터를 모든 사람에게 공개하고 광고를 게재함으로써 데이터로부터 가치를 얻을 수 있다고 생각했습니다. 이제 데이터를 AI에 대한 입력으로 사용할 때 훨씬 더 많은 가치를 추출할 수 있기 때문에 데이터를 잠가야 한다고 생각합니다.”