인공지능, 머신러닝 41

[MyMemory] TypeScript 번역 API

프로젝트를 진행하면서, 영어로 된 문장을 한국어로 바꿔야 되는 일이 생겼다. 서버를 켜지 않고도 번역 기능을 사용하고 싶어서, MyMemory를 선택하게 되었다.( 원래는 다른 오픈 소스 API를 쓰려고 했었는데, Axios 에러와 CORS 문제가 생겨서 MyMemory로 ) 어색한 문장들도 있지만, 나름 잘 번역이 되는 것 같아서 만족하고 있다.   // src > components > Char > Huggingwrite.tsximport React, { useState } from 'react';import { useTranslation } from 'react-i18next';import { translateText } from '../../services/translateService'; //..

[Django prac][키워드 검색량 크롤링] 6. 구글에 '탕수육'을 검색한 후, 관련된 게시글 가져오기

# example4.py import requests from bs4 import BeautifulSoup from selenium import webdriver def get_data(keyword): url = f"https://www.google.com/search?q={keyword}" # 동적인 페이지는 정상적으로 가져올 수 없다! # response = requests.get(url) # print(response.text) # 크롬 브라우저가 열림 # 이 때, 동적인 내용들이 모두 채워짐 driver = webdriver.Chrome() driver.get(url) # 열린 페이지 소스들을 받아온다. html = driver.page_source soup = BeautifulSoup(html..

[Django prac][키워드 검색량 크롤링] 5. 구글에 '탕수육'을 검색했을 때, 검색량이 얼마나 되는지 알아보기

# example3.py import requests from bs4 import BeautifulSoup from selenium import webdriver def get_data(keyword): url = f"https://www.google.com/search?q={keyword}" # 동적인 페이지는 정상적으로 가져올 수 없다! # response = requests.get(url) # print(response.text) # 크롬 브라우저가 열림 # 이 때, 동적인 내용들이 모두 채워짐 driver = webdriver.Chrome() driver.get(url) # 열린 페이지 소스들을 받아온다. html = driver.page_source soup = BeautifulSoup(html..

[Django prac][키워드 검색량 크롤링] 4. 구글에서 '탕수육'을 검색한 후, 페이지 자료 받아오기

# example2.py import requests import time from bs4 import BeautifulSoup from selenium import webdriver def get_data(keyword): url = f"https://www.google.com/search?q={keyword}" # 동적인 페이지는 정상적으로 가져올 수 없다! # response = requests.get(url) # print(response.text) # 크롬 브라우저가 열림 # 이 때, 동적인 내용들이 모두 채워짐 driver = webdriver.Chrome() driver.get(url) # 열린 페이지 소스들을 받아온다. html = driver.page_source soup = Beauti..

[Django prac][키워드 검색량 크롤링] 3. quotes to scrape 사이트에서 텍스트 글 자료 가져오기

▶ quotes to scrape 스크랩하기 위한 인용구들을 모아둔 사이트 일종의 데모 사이트 * 사이트 https://quotes.toscrape.com/ Quotes to Scrape quotes.toscrape.com # example1.py import requests from bs4 import BeautifulSoup url = 'https://quotes.toscrape.com/tag/love/' # 1. 다운로드 - url 을 이용해서, HTML 이 담긴 자료를 받아와야 함 response = requests.get(url) # html 문서를 text 형태로 확인 html_text = response.text # str 이 출력된다. print(type(html_text)) # 문자열 파..

[Django prac][키워드 검색량 크롤링] 2. requests, BeautifulSoup, Selenium 설치

▶ 필요한 라이브러리 requests HTTP 요청을 보내고, 응답을 받을 수 있는 모듈 BeautifulSoup HTML 문서에서 원하는 데이터를 추출하는 데 사용하는 파이썬 라이브러리 Selenium 웹 어플리케이션을 테스트하고, 자동화하기 위한 파이썬 라이브러리 웹 페이지의 동적인 컨텐츠 (검색 결과 등)을 가져오기 위해서 사용한다 ▶ 라이브러리 설치 pip install requests beautifulsoup4 selenium - 설치된 목록 확인 pip list

웹 크롤링이란? 웹 크롤링 프로세스

▶ 웹 크롤링이란? 여러 웹 페이지를 돌아다니면서 원하는 정보를 모으는 기술 Scraping + Crawling => Web Crawling 원하는 정보를 추출하는 스크래핑 (Scraping)과 여러 웹 페이지를 자동으로 탐색하는 크롤링(Crawling)을 합쳐서 웹 크롤링이라고 부른다 즉, 웹사이트를 돌아다니며, 필요한 데이터를 추출하여 활용할 수 있도록 자동화시킨 프로세스이다. ▶웹 크롤링 프로세스 1 웹 페이지에서 데이터 추출 해당 웹 페이지의 HTML, CSS, JavaScript 등의 코드를 가져오는 단계 2 페이지 파싱 다운로드 받은 코드를 분석하고 필요한 데이터를 추출하는 단계 3 링크 추출 및 다른 페이지 탐색 다른 링크를 추출하고, 다음 단계로 이동하여 원하는 데이터를 추출하는 단계 4 ..

데이터 수집 기술

웹 스크래핑 Web Scraping 웹 페이지에서 데이터를 추출하는 기술 웹 크롤링 Web Crawling 웹 페이지를 자동으로 탐색하고, 데이터를 수집하는 기술 Open API 활용 공개된 API를 통해 데이터를 수집함 데이터 공유 플랫폼 활용 다양한 사용자가 데이터를 공유하고 활용할 수 있는 온라인 플랫폼 ex) 캐글 (Kaggle), Data.world, 데이콘(Dacon), 공공데이터포털 등

데이터 사이언스 프로세스

▶ 필요한 정보를 추출하는 5가지 단계 1 문제 정의 해결하고자 하는 문제 정의 2 데이터 수집 문제 해결에 필요한 데이터 수집 3 데이터 전처리 (정제) 실질적인 분석을 위해 데이터를 가공하는 단계 수집한 데이터의 오류 제거 (결측치, 이상치) 데이터 형식 변환 4 데이터 분석 전처리가 완료된 데이터에서 필요한 정보를 추출하는 단계 5 결과 해석 및 공유 의사 결정에 활용하기 위해 결과를 해석하고 시각화 한 후 공유하는 단계