▶ 웹 크롤링이란?
여러 웹 페이지를 돌아다니면서 원하는 정보를 모으는 기술 Scraping + Crawling => Web Crawling 원하는 정보를 추출하는 스크래핑 (Scraping)과 여러 웹 페이지를 자동으로 탐색하는 크롤링(Crawling)을 합쳐서 웹 크롤링이라고 부른다 즉, 웹사이트를 돌아다니며, 필요한 데이터를 추출하여 활용할 수 있도록 자동화시킨 프로세스이다. |
▶웹 크롤링 프로세스
1 | 웹 페이지에서 데이터 추출 |
해당 웹 페이지의 HTML, CSS, JavaScript 등의 코드를 가져오는 단계 |
2 | 페이지 파싱 | 다운로드 받은 코드를 분석하고 필요한 데이터를 추출하는 단계 |
3 | 링크 추출 및 다른 페이지 탐색 |
다른 링크를 추출하고, 다음 단계로 이동하여 원하는 데이터를 추출하는 단계 |
4 | 데이터 추출 및 저장 | 분석 및 시각화를 사용하기 위해 데이터를 처리하고 저장하는 단계 |
'인공지능, 머신러닝 > Django + Crawling' 카테고리의 다른 글
[Django prac][키워드 검색량 크롤링] 3. quotes to scrape 사이트에서 텍스트 글 자료 가져오기 (0) | 2024.04.19 |
---|---|
[Django prac][키워드 검색량 크롤링] 2. requests, BeautifulSoup, Selenium 설치 (0) | 2024.04.19 |
데이터 수집 기술 (0) | 2024.04.19 |
데이터 사이언스 프로세스 (0) | 2024.04.19 |
파이썬으로 웹 페이지에 있는 정보를 가져오는 방법 (0) | 2024.04.19 |