티스토리 뷰

반응형

1. 개발자 도구를 활용한 웹페이지에 대한 분석
2. 분석한 데이터를 활용한 페이지 요청
3. Workbook 을 활용한 Excel 추출

개발자 도구를 활용한 웹페이지에 대한 분석

최근 크몽을 통해서 문의가 들어온 요청을 대응 했던 과정을 포스팅 하려고 한다. 

문의사항은 간결하고 명확했다. 

필요한 정보는 제목, 내용, 링크, 가격(추가 요청), 작성일(추가요청) 총 5가지 정보로, 

검색결과 목록에서 제목, 링크, 작성일 정보를 추출한 후, 해당 물건 상세 페이지에서 내용과 가격정보를 크롤링하면 되는 비교적 간단한 크롤링 요청 건 이다. 추가 조건 중 하나는 "판매완료" 여부를 확인하면 된다. 

 

이를 위해서 우선 중고나라에서 특정 검색어를 입력하여 웹페이지에서 동작 상태를 확인해보았다. 

검색조건으로 적용할 수 있는 내용은 기간을 내가 원하는 기간으로 입력하여 조회 할 수 있었다. 

상품별 상세 페이지에서 가격과 내용(상세정보)를 확인 할 수 있었다. 


이제 데이터 추출을 실제로 어떻게 할지 개발자 도구를 통해서 확인해보자.

먼저 제목의 경우는 HTML 상 <a> 태그의 -> class 명 : "article" 로 find 하면 찾을 수 있을 것으로 판단이 되었다. 

 

그리고 조건이였던 판매완료 정보는 <td> 태그에서 class 명 :  "sellout" 포함여부로 구분할 수 있을 것 같다.

판매중의 경우 td_article, 판매 완료의 경우 td_article sellout으로 구분되어 있었다.

작성일 정보도 <td> 태그에서 class 명 : "td_date" 로 확인 할 수 있었다. 

 


다음은 하나의 상품을 선택했을 때 보이는 상세 페이지에서의 데이터를 확인해보자.

 

상품 선택 시 노출되는 정보는 json 형태로 제공이 되고 있었다. 

상품으로의 이동은 상품 고유 번호(articleId)로 이동하게 되며 아래와 같이 접근할 수 있다. 

 

https://apis.naver.com/cafe-web/cafe-articleapi/v2.1/cafes/10050146/articles/{상articleId}?query=&useCafeId=true&requestFrom=A

JSON 경로를 살펴보면,

내용 정보는 ['result']['article']['contentHtml'] 경로에 있고, 가격 정보는 ['result']['saleInfo']['price'] 임을 확인 할 수 있다.

 

이제 모든 준비가 완료되었다. 

 

1. 최초 검색 요청 경로 확인 : 검색 기간 / 검색 명령어 / 페이지 당 상품 수 변수 적용

 :  https://cafe.naver.com/ArticleSearchList.nhn?search.clubid=10050146&search.searchdate= {검색기간} &search.searchBy=0&search.query={검색 명령어}&search.defaultValue=1&search.includeAll=&search.exclude= &search.include=&search.exact=&search.sortBy=date&userDisplay={페이지 당 상품 수} &search.media=0&search.option=0

 

2. 필요한 정보의 접근 방법

  • 상품목록 (HTML)
    • 판매완료 : <td> 태그에서 class 명 :  "sellout" 포함여부
    • 제목 : <a> 태그의 -> class 명 : "article"
    • 작성일 : <td> 태그에서 class 명 : "td_date" 
  • 상품상세 (JSON)
    • 내용 : ['result']['article']['contentHtml']
    • 가격 : ['result']['saleInfo']['price'] 

 

다음 포스팅에서 실제 소스코드를 통해 데이터에 대한 접근 및 추출을 진행해보자.

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함