개발/파이썬(PYTHON)

[PYTHON] 네이버 부동산 상가 매물 크롤링하기

보안인 2022. 3. 2. 23:11
반응형

 

개인적으로 대학교 시절 컴퓨터 공학과를 나왔다는 점,

그 동안 개발 업무를 해오진 않았지만 대학교 시절이 기억을 되새기면 최근 파이썬 스크립트 작성에

재미를 붙이고 있는 중에 있다. 

 

그 중에 크롤링에 재미를 붙이게 되었고,

특히 다른 측면에 관심을 가지게 된 부동산과의 조합을 생각하게 되었으며 부동산 중에 제 관심은 바로 "상가"!!

 

부천시 옥길동 상가/지식산업센터 검색 시 결과(매매방식 : 매매) - 총 154개 / 22년 3월 2일 기준

 

특정 매물 선택 시 제공정보 : 주소, 면적, 층, 보증금, 월세 등 많은 정보

 

제대로 된 상가의 시세를 알기 위해서는 전반적인 주변의 시세를 함께 알아야 매수하고자 하는 물건의 가치가 주변의 기준 대비 높게 평가되어 있는지 낮게 평가되어 있는지 알 수 있다. 

 

하지만, 근처 매물을 검색해보면 수백개의 매물이 검색되며, 각각의 매물에서 제공하는 정보또한 굉장히 많다.

 

한 지역만 조사하려고 해도 몇시간을 소모해야 하는 비용이 발생함에 따라 이를 자동화 하기위해 파이썬을 이용하기로 했다.

 

우선 최종적인 결과를 보면 아래와 같이 엑셀로 추출이 가능하였다.

Python 자동화를 통한 지정 지역에 대한 상가 매물 자동 추출


전체 Flow 를 정리하면 아래와 같다.

 

1. 개발자 도구를 활용한 웹페이지에 대한 분석 -> PC 웹 페이지에 대한 분석

2. 개발자 도구를 활용한 웹페이지에 대한 분석 -> 모바일 페이지에 대한 분석

3. 분석한 데이터를 활용한 페이지 요청 : 그룹(단지) 정보 / 물건정보 추출

4. Tkinter 를 활용한 GUI 프로그램 제작

 

위 각각의 절차에서 대부분의 분석 데이터는 html 각 각 속성을 불러오기 보다는 데이터를 한번에 제공하는

json 값을 추출하여 엑셀로 저장하는 구조로 되어 있다. 

 

효율성, 속도 면에서 훨씬 좋은 점이 있다.

 

본 포스팅에서는 여기까지 정리하고 다음 포스팅에서 위 1~4의 각 단계에 대해서 포스팅하려고 한다.

 

https://cocoabba.tistory.com/56

1. 개발자 도구를 활용한 웹페이지에 대한 분석 -> PC 웹 페이지에 대한 분석

 

[PYTHON] 네이버 부동산 상가 매물 크롤링하기(1/4)

앞선 포스팅에 이어 약 1년이 지난 시점에 관련 질문이 있는 듯 하여 각 과정을 아래와 같은 단계로 포스팅하려고 합니다. https://cocoabba.tistory.com/42 [PYTHON] 네이버 부동산 상가 매물 크롤링하기 개

cocoabba.tistory.com

 

https://cocoabba.tistory.com/57

2. 개발자 도구를 활용한 웹페이지에 대한 분석 -> 모바일 페이지에 대한 분석

 

[PYTHON] 네이버 부동산 상가 매물 크롤링하기(2/4)

앞선 포스팅에서 파이선을 이용하여 네이버 부동산 상가 매물 크롤링을 하기 위한 첫 단계로 개발자도구를 활용하여 PC 웹 페이지에 접근하여 과정 별 데이터를 확인하였다. 원하는 데이터가 jso

cocoabba.tistory.com

 

https://cocoabba.tistory.com/58

3. 분석한 데이터를 활용한 페이지 요청 : 그룹(단지) 정보 / 물건정보 추출

 

[PYTHON] 네이버 부동산 상가 매물 크롤링하기(3/4)

앞선 포스팅에서 python을 이용하여 네이버 부동산 상가 매물 크롤링을 하기 위한 두번째 단계로 개발자도구를 활용하여 PC가 아닌 모바일 웹 페이지에 접근하여 PC에서 요청 시 발생하는 정보보

cocoabba.tistory.com

 

 

https://cocoabba.tistory.com/59

4. Tkinter 를 활용한 GUI 프로그램 제작

 

[PYTHON] 네이버 부동산 상가 매물 크롤링하기(4/4)

앞선 포스팅 1~3에서 python을 이용하여 네이버 부동산 상가 매물 크롤링을 하기 위한 과정을 세번째 단계로 정리하여 포스팅 하였다. 하지만 이렇게 코드로는 사용성이 낮아지는 부분이 있어서,

cocoabba.tistory.com

 

반응형