서울시 내 이디야커피 / 스타벅스 매장 분포 분석

2025. 6. 18. 21:02QGIS

1. 브이월드에서 서울의 읍면동 행정경계 파일과 시군구 행정경계 파일을 내려받는다.

 

2. 웹크롤링으로 공식 사이트에서 지점 정보를 가져옵니다. 소상공인시장진흥공단의 데이터는 2022년인가 2023년부터 직영점의 정보를 포함하고 있지 않기 때문입니다.

웹 크롤링(Web Crawling)이란, 인터넷에 있는 웹사이트들을 자동으로 방문하면서 그 안의 데이터를 수집하는 작업을 말합니다. 이 작업을 수행하는 프로그램이나 봇을 웹 크롤러(Web Crawler) 또는 스파이더(Spider) 라고 부릅니다. 파이썬에서는 Selenium 패키지와 BeautifulSoup 패키지가 주로 사용됩니다.

  • Selenium(셀레니움)은 웹 브라우저를 자동으로 제어할 수 있는 오픈소스 도구입니다. 웹 브라우저를 직접 띄우고 사람처럼 마우스 클릭, 키보드 입력, 스크롤 등의 동작을 자동으로 수행할 수 있어서, 웹 자동화나 동적 웹사이트 크롤링에 많이 사용됩니다. pip install selenium으로 설치할 수 있습니다.
  • BeautifulSoup은 HTML이나 XML 문서를 파싱(Parsing) 해서 구조화된 방식으로 데이터를 쉽게 추출할 수 있게 도와주는 Python 라이브러리입니다. 웹페이지의 HTML 코드에서 필요한 요소만 골라낼 수 있게 도와주는 도구입니다. 사람이 직접 HTML 코드를 읽고 데이터를 찾듯이, 코드로 쉽게 처리할 수 있게 만들어줍니다. pip install bs4로 설치할 수 있습니다.

제 깃헙 저장소에는 이디야커피와 스타벅스의 매장 위치를 각각의 공식 사이트에서 크롤링 할 수 있는 도구가 마련되어 있습니다. 이디야커피 크롤러 / 스타벅스 크롤러 폴더에서 우클릭하여 터미널을 열고 python 파일이름.py를 입력해 실행하면 됩니다.

 

3. QGIS에서 불러와 벡터 중첩 분석을 하고 추가로 열지도로 나타내었습니다.

 

4. R에서 LISA 클러스터를 만들었습니다.

완성