인공지능, 머신러닝/Django + Crawling

웹 크롤링이란? 웹 크롤링 프로세스

bay07 2024. 4. 19. 11:48

▶ 웹 크롤링이란? 

여러 웹 페이지를 돌아다니면서 원하는 정보를 모으는 기술

 Scraping + Crawling => Web Crawling
원하는 정보를 추출하는 스크래핑 (Scraping)과 여러 웹 페이지를 자동으로 탐색하는 크롤링(Crawling)을 합쳐서
웹 크롤링이라고 부른다 

즉, 웹사이트를 돌아다니며, 필요한 데이터를 추출하여 활용할 수 있도록 
자동화시킨 프로세스이다. 

 

▶웹 크롤링 프로세스 

1 웹 페이지에서 
데이터 추출
해당 웹 페이지의 HTML, CSS, JavaScript 등의 코드를 가져오는 단계
2 페이지 파싱 다운로드 받은 코드를 분석하고 
필요한 데이터를 추출하는 단계
3 링크 추출 및
다른 페이지 탐색
다른 링크를 추출하고, 다음 단계로 이동하여
원하는 데이터를 추출하는 단계
4 데이터 추출 및 저장 분석 및 시각화를 사용하기 위해 
데이터를 처리하고 저장하는 단계