웹사이트 크롤링 팁(proxy) > 이슈/정보

본문 바로가기
사이트 내 전체검색

이슈/정보

웹사이트 크롤링 팁(proxy)

페이지 정보

profile_image
작성자 사천원
댓글 0건 조회 236회 작성일 2024-08-27

본문

웹사이트 크롤링 팁(proxy) 

우리가 실제로 구현할수 있는 proxy크롤링 로직 



웹사이트 크롤러만 5년 이상 해봤던 경험으로, 도움이 될만한 분들이 있을까 하여 적어둡니다. 

일반적으로 웹사이트들은 동일한 IP나 브라우저에 대해 제한을 겁니다. 

따라서 크롤러 측에서는 IP를 수시로 변경해가며 크롤링을 하면서, 브라우저도 변경해주는 로직을 넣어야 합니다. 

이에 proxy관련된 주요 로직에 대한 설명을 해드립니다. 

  


1-1. 외국의 무료 proxy서버 proxy리스트를 가져와서 DB에 넣는 로직을 구성한다.


1-2. 1일 1회 정도 주기적으로 크롤링해서 넣어놓는 배치로 제작해서 돌려둔다.(신규 무료proxy서버 정보를 꾸준히 추가하기 위해) 


2-1. curl proxy설정(성공 status가 -2이상인 것들 기준에서 1개 랜덤 차출)을 하여,

   URL을 크롤링할때 성공할때까지! 라는 루프를 실행 -> 성공하면 탈출, 못하면 반복 


2-2. 성공한 proxy서버일 경우 DB에 proxy서버 status를 1 증감, 실패한 proxy서버일 경우 status를 1차감


3. 크롤러는 기본적으로 배치로 제작하여 24시간 돌린다.

※상기 로직에는 기본적인 크롤러 기능에 대한 설명은 생략되어있습니다.


요즘은 이것에 대해 별도로 대신해주는 레퍼런스들도 있을지도 모르겠습니다만, 

한번 구현해두면 크롤링에 관한 스트레스는 없어질겁니다. 

그리고, proxy 설정이라던지 curl 헤더설정, 쿠키설정 등에 더 깊이 들어가면, 정말 못 긁어올 데이타가 없다는걸 알게됩니다. 

(보안이 좀 쎈 포탈 및 MFA미적용 앱들 등 로그인 이후에 지정된 조작이 되어야만 나오는 화면등) 


좀 더 응용하면 IoT관련된 앱들의 움직임을 그대로 추적/크롤링하여, 데이타만 뽑아와서 사용할 수도 있고,

IoT앱들의 움직임을 그대로 따라해서, 명령을 실행할수도 있습니다. (대부분의 통합IoT앱들의 인터페이스 구현방법) 


요즘은 GPT관련 팁만 존재하는 듯하여, 하나 원초적인 로직을 드리니, 한번 도전해보시기 바랍니다.





추천0

댓글목록

등록된 댓글이 없습니다.

Total 38,347건 5 페이지
이슈/정보 목록
번호 제목 글쓴이 조회 추천 날짜
38267 포커스 255 0 09-04
38266 피모 240 0 09-04
38265 오마코 224 0 09-02
38264 햄스터 238 0 09-02
38263 바른 자세 236 0 09-02
38262 피모 257 0 09-02
38261 장땡 256 0 09-02
38260 장땡 209 0 09-02
38259 프로펠러 223 0 09-02
38258 돼춘이 228 0 09-02
38257 사쿠라 212 0 09-02
38256 윈드맨 257 0 09-02
38255 호미 238 0 09-02
38254 마리 256 0 09-02
38253 장땡 225 0 09-02
38252 아나콘다 224 0 09-02
38251 오트밀 238 0 09-02
38250 햄스터 255 0 09-02
38249 허슬 231 0 09-02
38248 허슬 250 0 09-02

검색

회원로그인

회원가입

대표 : 장동현 서울시 강동구 길1동 전화 : 02-2134-1624 사업자등록번호 : 587-42-00360 통신판매업신고 : 2018-서울강동-0718 이메일 : allsitesu@gmail.com

Copyright © www.damgun.com All rights reserved.