728x90
반응형
Google, AI 계약 덕분에 Reddit에서 작동하는 유일한 검색 엔진이 되다
- Google은 이제 Reddit의 결과를 표시할 수 있는 유일한 검색 엔진임
- Reddit이 최근 robots.txt 파일을 업데이트하여 Google을 제외한 모든 검색 엔진의 크롤링을 차단함
- Bing, DuckDuckGo, Mojeek, Qwant 등 Google의 인덱싱에 의존하지 않는 대안 검색 엔진에서는 최근 1주일 동안의 Reddit 검색 결과를 볼 수 없음
- DuckDuckGo는 Reddit 검색 시 7개의 링크를 표시하지만, 링크의 목적지나 이유에 대한 정보는 제공하지 않음
- Kagi는 Google의 일부 검색 인덱스를 구매하여 Reddit 검색이 가능함
- 이는 Google의 검색 독점이 다른 기업들의 경쟁 능력을 저해하는 시기에 발생한 사건임
- Reddit과 Google은 이에 대한 언론의 논평 요청에 응하지 않았으나, 다른 검색 엔진 배제는 Google에게 AI 제품 학습을 위해 Reddit 데이터를 스크래핑할 수 있는 권리를 부여하는 수백만 달러 규모의 계약 때문인 것으로 보임
Mojeek CEO의 반응
- Mojeek의 CEO Colin Hayhurst는 6월 초 Mojeek이 Reddit 크롤링이 차단된 것을 발견하고 이메일로 연락했으나 회신을 받지 못했다고 밝힘
- Hayhurst는 "무지나 어리석음 때문에 차단되는 경우가 있지만 연락하면 해결할 수 있었는데, 이번에는 누구에게서도 회신을 받지 못한 전례 없는 일"이라고 말함
- Reddit은 크롤러를 차단하는 것 외에도 Mojeek의 크롤러를 적극적으로 차단하고 있다고 함
AI 기업의 데이터 스크래핑 차단 증가 추세
- 많은 웹사이트들이 robots.txt 파일을 업데이트하여 AI 기업들이 학습 데이터를 스크래핑하는 봇을 차단하려는 시도가 크게 증가하고 있음
- Google은 최근 검색 결과 개선을 위한 Googlebot과 제미니 앱 개선을 위한 Google-Extended라는 두 가지 크롤러를 도입함
- Robots.txt 파일은 단순한 지침일 뿐이며 크롤러가 이를 무시할 수 있음
Reddit의 조치 배경
- Reddit은 대규모 언어 모델 학습을 위해 사이트를 스크래핑하는 AI 기업들에 대해 불만을 가지고 있었으며, 이를 막기 위한 공개적이고 적극적인 조치를 취해 왔음
- 작년에는 API 접근에 대해 과금을 시작하면서 많은 서드파티 앱들이 운영하기에 너무 비싸져 중단되었음
- 올해 초에는 Google과 6천만 달러 규모의 계약을 체결하고 Google이 AI 제품 학습을 위해 Reddit 콘텐츠를 라이선스할 수 있도록 허용함
Reddit의 Robots.txt 파일 변경
- 이전에는 농담이 포함된 복잡한 형태였으나 최근에는 간단하고 엄격해짐
- 현재는 "User-agent: *, Disallow: /"라는 지시문만 포함하고 있는데, 이는 어떤 봇도 사이트의 어떤 부분도 스크래핑해서는 안 된다는 의미임
- Reddit은 "공개 인터넷은 믿지만 공개 콘텐츠 오용은 용납할 수 없다"는 입장을 밝힘
Reddit의 입장
- 최근 상업적 주체들이 Reddit을 스크래핑하면서 약관이나 정책에 구속되지 않는다고 주장하는 사례가 증가하고 있음
- Robots.txt 뒤에 숨어 Reddit 콘텐츠를 어떤 용도로든 사용할 수 있다고 말하는 것은 더 심각한 문제임
- 악의적 행위자들을 찾아 선제적으로 차단하기 위해 최선을 다하겠지만, Redditor들의 기여를 보호하기 위해 더 많은 노력이 필요함
- 앞으로 robots.txt 지침을 최대한 명확하게 업데이트할 예정임. 자동화된 에이전트로 Reddit에 접근한다면 약관과 정책을 준수하고 Reddit과 소통해야 함
비상업적 목적의 Reddit 데이터 접근은 여전히 가능
- Reddit은 "선의의 행위자(연구자, 인터넷 아카이브 등)는 비상업적 용도로 계속 Reddit 콘텐츠에 접근할 수 있을 것"이라고 밝힘
- Reddit 데이터 대규모 접근을 신뢰할 수 있는 주체를 선별적으로 선정한다고 함
- Reddit 데이터 접근 가이드에 따르면 "검색이나 웹사이트 광고"는 "상업적 용도"로 간주되며, 허가나 수수료 지불 없이는 Reddit 데이터를 사용할 수 없음
Google만이 Reddit 검색을 지원하는 현실의 함의
- Google 검색의 관련성이 점점 떨어지는 가운데, 여전히 좋은 검색 결과를 얻는 방법 중 하나는 검색어에 "Reddit"을 추가하는 것임
- Reddit에는 거의 20년 동안 실제 사용자들이 조언과 추천을 남겨 왔기 때문
- 이제 Google만이 이러한 정보로 사용자를 인도하고, 이것이 AI 학습 데이터와 관련된 6천만 달러 규모 계약의 결과라는 사실은 생성형 AI 도구에 힘을 실어주기 위해 전체 인터넷을 무차별적으로 스크래핑하는 것의 의도치 않은 결과를 보여주는 또 다른 사례임
Mojeek CEO의 우려
- Mojeek은 20년 동안 존중하는 자세로 크롤링해 왔으며, AI를 학습시키지 않고 추적도 하지 않는 전통적인 검색 엔진임
- Reddit의 Google과의 계약은 웹을 검색하는 대안적 방식을 제공하기 어렵게 만듦
- 이는 점진적으로 웹을 죽이고 침식하는 광범위한 추세의 일부임
- 이번 일은 소규모 기업들에게 도움이 되지 않음
커뮤니티 의견
- Reddit의 조치는 콘텐츠 생성자의 권리를 보호하고 상업적 악용을 방지하기 위한 것이지만, 검색 엔진 시장의 경쟁을 저해하는 결과를 초래할 수 있음
- 특히 Google이 AI 학습을 위해 Reddit 데이터를 독점하는 상황은 Google의 시장 지배력 남용 우려를 낳음
- 장기적으로는 콘텐츠 제공자, 검색 엔진, AI 기업 간 상생할 수 있는 규범과 정책 마련이 시급해 보임
- 한편 검색 품질 하락에 대한 대안으로 Reddit 검색이 부각되는 상황 자체가 아이러니함. 근본적으로는 검색 엔진들의 관련성과 다양성 제고를 위한 노력이 필요함
- Kagi와 같이 Google 검색 인덱스를 일부 활용하면서도 독자적인 접근법을 모색하는 신생 검색 엔진들의 성장에도 관심을 가져볼 만함
반응형
'AI > AI News' 카테고리의 다른 글
AI 데이터 인프라의 부상 (1) | 2024.11.25 |
---|---|
NVIDIA garak - LLM 취약점 스캐너 (1) | 2024.11.19 |
Briefer – 일정, SQL, 내장 LLM이 포함된 멀티플레이어 노트북 (0) | 2024.07.27 |
"오픈소스 AI가 미래의 길입니다" by 마크 주커버그 (0) | 2024.07.27 |
RouteLLM - LLM 라우터 서빙 및 평가를 위한 프레임워크 (0) | 2024.07.27 |