"AI크롤러가 크롤링 및 스크래핑을 시도했다"는 말을 많이 들어보셨을 수 있는데, 이러한 크롤링 및 스크래핑이 무단으로 이루어지는 경우 불법 크롤링으로 저자권침해 등 법적 문제가 발생하므로 주의가 필요합니다.
※ 참고 : 크롤링과 스크래핑의 개념, 크롤링 작동 원리
크롤링은 웹사이트의 전체적인 구조를 탐색하고 데이터를 "수집" 하는 행위이고, 스크래핑은 수집된 웹페이지에서 텍스트나 이미지와 같은 특정한 데이터를 추출해 "가공"하는 행위로, 보통은 크롤링으로 페이지에 접근하고 스크래핑으로 원하는 정보를 추출하는 방식으로 이루어집니다.
우선, AI 크롤러가 작동하는 방식의 원리에 대해 알아보자면, 일반적인 웹 크롤러와 비슷하지만 LLM(대규모 언어모델)의 학습 및 최신 정보를 검색하는 것에 그 목적이 있다는 특징이 있습니다.
그런데 일반적으로 크롤링 작업을 진행함에 있어서도 웹사이트 운영자가 설정한 접근 차단 지침(주로 robots.txt 파일)에 따라야 하는데, 이러한 웹사이트 접근 차단 신호를 의도적으로 무시하고 해당 사이트 내의 콘텐츠를 무단으로 수집한다면 이는 분명한 법적 문제가 됩니다.
AI크롤러임을 숨기고 우회적인 접속으로 데이터를 수집하는 방식 또한 문제가 될 수 있는데, 이는 대부분의 웹사이트가 유저 에이전트 식별과 IP주소 기반으로 봇의 접근을 감지하고 차단한다는 점에 착안한 방식입니다. '유저 에이전트'를 수정하여 봇이 아닌 정상 브라우저 접근으로 오인하게 하거나, 동일 IP 반복 접근으로 인한 차단을 피하기 위해 IP 주소를 바꾸어 접속경로를 계속 변경해 접근하는 방법이 대표적입니다.
그렇다면 이러한 AI크롤러, 우회접속 등을 활용한 불법크롤링의 경우, 어떠한 법적 리스크가 있을까요?
대표적으로는 ① 저작권법 문제 (데이터베이스권·2차적 저작물 관련), ② 부정경쟁방지법 (데이터의 무단 취득, 영업상 이익 침해 관련) ③ 계약이나 이용약관(TOS) 위반 문제, ④ 해외의 경우 DMCA 제1201조와 같은 우회 금지 규정 위반 문제를 체크해볼 수 있겠습니다.
※ 참고
Digital Millennium Copyright Act(DMCA) §1201 : Circumvention of copyright protection systems 일부
- 저작권 보호 저작물에 대해 "권리 소유자의 권한이 없이" 기술적 보호조치를 우회하는 행위를 금지
- 그러한 보호조치 우회를 위한 기기, 서비스, 부품 등을 제조·수입·공급·판매하거나 그 목적을 위한 것임을 알고도 제공하는 행위
CASE 1. 채용 플랫폼 운영사 잡코리아를 대리해 경쟁사 사람인의 부정 크롤링을 이유로 저작권침해금지소송 제기, 최종 승소 및 추가적으로 120억 원 합의 성립시킨 사례
* 의뢰인/상대방
잡코리아 유한회사 (원고) / 주식회사 사람인에이치알 (피고)
* 사건 개요
· 구인·구직 플랫폼 경쟁사인 피고가 의뢰인 웹사이트 HTML 소스 코드 중 웹프로그래밍적 요소가 가미된 부분을
무단 복제하고, 채용정보 데이터베이스(DB)를 크롤링해 무단 사용한 저작권 침해 및 부정경쟁행위 분쟁
* 주요 쟁점
· HTML 소스 코드 중 웹프로그래밍 요소의 저작권법상 창작성 있는 저작물 인정 및 보호 여부
· 경쟁사의 대규모 채용정보 웹 크롤링 행위의 저작권 침해 및 부정경쟁방지법상 DB 보호 규정 위반 여부
* 법무법인 민후 전략
· 웹프로그래밍적 요소가 가미된 HTML 소스가 단순 기능이 아닌 창작적 표현임을 논증해 저작물성 입증
· 피고의 무단 크롤링 및 복제 행위가 조정조서 위반이자 경쟁사 DB 보호 의무 위반 부정경쟁행위임을 강조
* 결과
· 대법원 상고 기각 및 원심 확정 (웹프로그래밍적 요소가 가미된 HTML 소스 코드의 저작물성을 인정)
· 피고의 저작권 침해 및 조정조서 위반 행위 인정, 침해 금지를 명하는 원심 판결 확정
CASE 2. 크롤링으로 얻은 DB를 인사업무 목적 범위 내에서 활용한 것에 대한 저작권법 및 정보통신망법위반 형사고소를 당하였으나, 혐의없음 불송치 결정으로 마무리 된 사례
* 의뢰인/상대방
유명 중개 플랫폼 자료를 활용한 피의자 (회사) / 해당 중개 플랫폼 서비스 기업 (고소인)
* 사건 개요
의뢰인이 고소인 회사의 상품을 정당하게 구매한 후, 크롤링(crawling)을 통해 얻은 데이터베이스를 인사업무 목적 범위 내에서 활용하였다는 이유로, 고소인 측으로부터 저작권법 및 정보통신망법 위반 혐의로 형사 고소를 당한 사건
* 주요 쟁점
· 정보통신망 침해행위가 있었는지 여부 (정당 구매 및 목적 범위 내 사용)
· 크롤링 자료 수집 행위가 무분별한 복제 행위에 해당하여 저작권법을 위반했는지 여부
* 법무법인 민후 전략
· 의뢰인이 고소인 회사의 상품을 정당하게 구매하였고, 크롤링 자료를 인사업무라는 명확한 목적 범위 내에서만 사용했으므로 정보통신망 침해 행위가 없었음을 주장
· 크롤링은 단순히 자료를 수집한 행위에 불과하며, 무분별한 복제나 배포를 하지 않았으므로 저작권법 위반 행위가 성립하지 않음을 논증
* 결과
경찰의 불송치 결정 (혐의 없음)
이와 같은 법적 분쟁이 발생하였을 때에는 HTML 소스 코드 중 "창작적 요소"에 대한 저작권 보호 범위 명확히 하여 주장하거나, 웹 크롤링 기술 사용에 대한 형사적 책임 범위를 축소하여 합법적 목적 및 약관 범위 내의 데이터를 활용임을 주장하는 면밀한 대응이 필요할 것입니다.
또한, 불법적 크롤링으로 인한 데이터 유출에 대한 입증 책임이 데이터 소유자인 원고에게 있지만, AI알고리즘을 분석해 데이터 유출을 입증하는 것이 불가능에 가까운 일이기에 결국 DB 보유자나 AI 에이전트들이 최우선시하여 대비해야 할 문제는 지식재산권 보호 문제·보안의 취약성 문제가 될 것입니다.

