일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 블로그 이전했어요
- leetcode125
- Python
- leetcode 561
- 데이터레이크와 데이터웨어하우스
- webcrawler
- leetcode 5
- airflow docker
- leetcode 344
- Hadoop
- docker로 airflow 설치하기
- 컴퓨터구조
- Hortonworks Sandbox
- leetcode 937
- 머신러닝
- 올바른 변수명 짓기
- MapReduce 실습
- 문자열 조작
- 배열
- ctf-d
- 빅데이터를 지탱하는 기술
- leetcode 121
- leetcode 238
- leetcode
- leetcode 49
- wargame.kr
- leetcode 15
- leetcode 234
- leetcode 819
- 스파크 완벽 가이드
- Today
- Total
목록webcrawler (2)
HyeM
WebCrawler2_ WebtoonCrawler 웹툰 이미지 크롤링 ※ 이 프로그램은 개인적인 학습을 위해 제작한 것입니다. 이를 악의적인 목적으로 사용하지 마세요. ※ == 기능 == 해당 웹툰의 페이지에서, 제목과 회차 정보의 문자열을 추출하여, 폴더를 만든다. ( 웹툰 제목의 폴더안에 회차별로 폴더 존재) 회차별 폴더 안에는 한 회차의 이미지들이 저장된다. 한페이지의 웹툰은 10개가 있으므로, 크롤러 실행시 10개의 웹툰회차가 저장된다. == 실행 화면 == == 프로그램 로직 == 해당 웹툰 페이지 HTML 파싱하기 웹페이지 html에서 웹툰 이름 필터링 하기 웹툰 파일명 파일 만들기 회차별 이름 필터링 하기 (반복) 회차별 파일 만들기 (반복) 이미지 다운받기 (반복) 4~ 6번 과정은 회차별..
WebCrawler1_ 학교 홈페이지 웹크롤러 == 기능 == 학과 전공이 모여있는 학교 홈페이지에서, 학과&전공의 이름과, 학과 홈페이지 링크를 출력해준다. 학과 홈페이지가 없는 경우에는 '홈페이지가 존재하지 않음'을 띄우고, 있는 경우에는, 해당 홈페이지 링크를 출력해준다. 학과 홈페이지의 링크를 얻기 위해선, 학교 홈페이지(www.swu.ac.kr/www/swuniversity.html) 에 있는 각 학과 버튼을 통해, 페이지 이동이 필요하다. ↑ 크롤링 할 페이지 : www.swu.ac.kr/www/swuniversity.html ↑ 코드를 통해 접근해야 하는 페이지↑ == 코드 == https://github.com/KimHyeMin0207/Web-Crawler/blob/master/swuWeb..