[초급편] 파이썬 requests/BeautifulSoup4 라이브러리 활용 (진행 중)

본 코스는 구독 VOD로 제공됩니다. (구독 확인을 위해 회원가입/로그인이 필요합니다. 구독정책은 구독정책 페이지에서 확인하실 수 있습니다.)

크롤링의 기본 개념 및 크롤링으로 어떤 일들을 할 수 있는 지에 대해서 살펴봅니다. 그리고 Web Page와 Web Application간의 비교를 통해 똑같아 보이는 웹페이지라 할지라도 크롤링 관점에서 어떤 차이가 있는 지에 대해서도 살펴보겠습니다.

31:15 (1회 시청)

보다 효율적인 크롤링을 위해서는 http(s) 프로토콜과 웹에 대한 이해가 꼭 필요합니다. 웹프론트엔드를 구성하는 기술에 대해서 설명드리고, 다양한 HTTP 클라이언트 프로그램들에서 어떤 목적으로 HTTP요청을 서버로 전달하는 지에 대해서도 살펴보겠습니다.

그리고 파이썬 크롤링 시에 어떤 경우에 requests라이브러리를 쓸 수 있으며, 어떤 경우에 selenium을 검토해볼 수 있는 지에 대해서도 설명드리겠습니다.

41:36 (1회 시청)

파이썬에서는 기본 라이브러리로 urllib이 제공되지만, 이보다 간결한 코드로 다양한 HTTP 요청을 할 수 있는 최고의 라이브러리가 requests입니다. 이 requests 라이브러리에 대한 필수 사용법에 대해서 정리해봤습니다.

31:10 (1회 시청)

파이썬에서 가장 손쉽게 쓸 수 있는 HTML Parser인 BeautifulSoup4 라이브러리 사용법을 정리해봤습니다. 파싱에 필요한 HTML문자열은 requests라이브러리를 쓰시거나 Selenium을 통해서 얻어오시고, 손쉽게 BeautifulSoup4를 통해 HTML을 파싱하세요.

17:53 (1회 시청)

13:10 (1회 시청)

파일 포맷으로는 json, json lines, pickle에 대해서 살펴보며, Pandas를 활용한 CSV/XLSX 저장에 대해서도 살펴봅니다.

추가로 RDB로의 저장방법을 살펴보는 데요. dataset 라이브러리를 활용하여, sqlite 기준으로 코드를 보여드리지만, MySQL/PostgreSQL 등의 서버로 세팅이 되어있다면, 계정정보 변경만으로 손쉽게 insert를 하실 수 있습니다.

54:13 (1회 시청)

파이썬 이미지 처리 라이브러리인 Pillow 라이브러리를 활용하여, 이미지 썸네일/크기변경/이어붙이기/포맷변경을 하는 방법에 대해서 살펴봅니다.

23:57 (1회 시청)

지난 에피소드에 미션으로 내어드린 “연결된 여러 이미지 합치기”에 대한 풀이 에피소드입니다.

(1회 시청)

크롤링하고자 하는 사이트가 자바 스크립트로 처리된다고 무조건 Selenium이나 Splinter를 써야하는 것은 아닙니다. 자바 스크립트를 통해서 처리되는 컨텐츠를 어떻게 requests 라이브러리를 통해 크롤링하는 지에 대해서, 몇 가지 예시즐 통해 살펴보겠습니다. Selenium/Splinter 라이브러리는 중급 코스에서 살펴볼 예정입니다.

(1회 시청)

크롤링 코드 실행을 사람에 의해서, 혹은 스케줄러에 의해서 실행을 주로 하게 됩니다. 하지만 챗봇과 붙여보신다면, 훨씬 더 재미있고 유용하게 크롤링 코드를 활용하실 수 있게 됩니다.

챗봇에게 네이버 실검 메세지를 주면 프로그램이 이 메세지를 받아 네이버 실시간 검색어를 크롤링을 수행해서, 그 결과를 응답으로 주도록 구성해보겠습니다.

(1회 시청)

09 예시) 네이버 실검/맞춤법검사
(작성 중, 2019-03-21 예정)

10 예시) 멜론/벅스 차트 크롤링 비교
(작성 중, 2019-03-21 예정)

11 Pandas를 활용한 크롤링과의 비교
(작성 중, 2019-03-22 예정)

12 예시) Daum 증권 크롤링
(작성 중, 2019-03-22 예정)

13 예시) Naver 증권 크롤링
(작성 중, 2019-03-22 예정)

14 예시) 네이버 블로그-카페글 수집
(작성 중, 2019-03-25 예정)

15 예시) 클리앙 알뜰구매 게시글 및 댓글 수집하기
(작성 중, 2019-03-25 예정)

16 예시) 네이버 쇼핑, 검색어로 상품정보 수집
(작성 중, 2019-03-27 예정)

17 예시) 네이버 쇼핑, 검색된 상품의 평점 및 리뷰 수집
(작성 중, 2019-03-27 예정)

18 로컬 머신에서의 크롤링 스케줄링
(작성 중, 2019-03-29 예정)

19 맛보기) requests와 selenium간의 비교
(작성 중, 2019-03-29 예정)

이메일을 등록하시면 쓰신 댓글에 대한 답글이 등록되면 이메일로 알려드립니다. 이메일은 스팸함을 꼭 확인해주세요.