본문 바로가기
돈이 되는 데이터 모으기

웹 데이터 스크래핑 (크롤링) - 브라우저 차단을 피하는 방법

by 부업라이프 2023. 9. 24.

웹 데이터 스크래핑 (크롤링) - 브라우저 차단을 피하는 방법

안녕하세요, 오늘은 제가 우연히 찾은 웹 스크래핑에 특화된'웹 스크래핑 전용 브라우저'를 소개하려고 합니다. 

저는 딥러닝을 활용해 이미지를 분석하는 서비스를 만들고 있습니다.
그런데 문제는, 딥러닝 모델을 학습시키려면 엄청난 양의 이미지 데이터가 필요하다는 것이죠.
처음에는 웹에서 직접 수집해보려 했으나, 웹 스크래핑 과정에서 자주 차단 당하는 문제가 발생했습니다.

그런데 우연히 제가 필요로 하는 기능 들을 모두 가지고 있는 웹 스크래핑 전용 브라우저를 발견하게 되어 소개 해보려 합니다.

* 웹 스크래핑 vs 웹 크롤링
웹 크롤링은 특정 웹 페이지를 목표로 하지 않고, URL을 탐색해 반복적으로 링크를 찾아 정보를 수집하는 과정입니다.
반면, 웹 스크래핑은 특정 웹 페이지에서 필요한 데이터만을 목표적으로 추출하는 과정입니다.
두 방법 모두 정보 추출이라는 공통점을 가지지만, 타겟의 유무 여부에서 차이가 있습니다.

 

왜 웹 데이터 스크래핑을 해야 할까?

그런데 왜 굳이 이렇게 번거롭게 데이터를 수집할까요? 그 이유는 바로 '데이터'의 가치 때문입니다. 
요즘 같은 시대에 데이터는 AI 모델의 핵심이 되며, 없다면 AI도 아무 것도 아니죠.
웹 스크래핑은 데이터 수집 방법으로 데이터에 직접 액세스할 수 없는 웹사이트에서 데이터를 추출하는 방법이다.
마케터, 개발자 또는 특정 분야를 연구한다면 원하는 데이터를 추출하는데 웹 스크래핑은 사용해야 하는 도구 중 하나이다.
 

정리된 데이터를 얻기위한 웹 스크래핑

하지만 중요한 것은 '정리된' 데이터입니다. 
마치 다이아몬드와 같아요. 원석으로만 있으면 가치가 있긴 하지만, 정제되고 가공되어야 진정한 가치를 발휘합니다.

예를 들어, 가격 비교 사이트나 구인 게시판 등은 다양한 사이트에서 정보를 가져와서 한 곳에 정리함으로써 사람들에게 큰 가치를 제공합니다.
 

이 브라우저에게 기대하는 것은?

그런데 대부분의 경우 해당 사이트에서 직접 데이터를 제공하지 않거나 유료일 경우가 많아서 저같은 개발자들은 데이터를 직접 웹에서 스크래핑해야 합니다.
이 과정에서 문제가 발생하는데, 바로 사이트들이 캡차나 봇 탐지 툴을 사용하여 스크래핑을 어렵게 만든다는 것입니다.
이런 문제를 해결하기 위해 웹 스크래핑 전용 브라우저를 사용하면 차단 없이 웹사이트를 스크래핑할 수 있어 보였습니다.
 

웹 스크래핑에 특화된 특징들

  • 스크래핑 브라우저는 웹사이트를 스크래핑할 때 실제 사용자가 사용하는 것과 동일하게 동작하기 때문에 거의 감지되지 않는다.
  • 만약 차단된 경우 내장 되어 있는 캡차 해결 기능 으로 자동으로 캡차를 해결한다.
  • 프록시 모니터링 및 프록시 로테이션 기능이 내장되어 있어 브라우저를 실행할 때 마다 다른 국가의 다른 IP를 사용하게 되므로 스크래핑을 탐지하기가 더울 어렵게 만든다.

간단한 사용방법 소개

Scraping Brower 생성
  • Scraping Browser Activate
Scraping Browser 활성화

안타깝게도...

하지만, 역시나 당연하게도 이런 기능을 제공하는 브라우저는 무료가 아니었습니다.
Bright Data 회사의 서버를 사용하기 때문에 대역폭 비용을 지불해야 합니다.
그러므로 필요한 정보만 가져오고 이미지나 광고 등 불필요한 것들은 다운로드하지 않는 게 좋겠죠?
 

그래서 돈 주고 쓸만할까?

앞서 말했듯이 데이터의 중요성과 가치는 점점 커지고 있으며, 이로 인해 웹 스크래핑은 필수가 되어 가고 있는 것 같습니다.
이런 상황에서 데이터 수집 과정에서 마주치는 여러 문제들은 큰 장애물이 될 수 있습니다.
그럴 때 유용하게 사용할 수 있는 도구가 있다면 비록 유료지만 충분히 고려해 볼 수 있다고 생각 했습니다.
 
이번글은 우연히 찾은 웹 스크래핑 전용 브라우저를 소개해 보았는데, 직접 사용해서 체험한 결과도 공유해 드리도록 하겠습니다.