[초급편] 파이썬 requests/BeautifulSoup4 라이브러리 활용 (완료)

본 코스는 구독 VOD로 제공됩니다. (구독 확인을 위해 회원가입/로그인이 필요합니다. 구독정책은 구독정책 페이지에서 확인하실 수 있습니다.)

크롤링의 기본 개념 및 크롤링으로 어떤 일들을 할 수 있는 지에 대해서 살펴봅니다. 그리고 Web Page와 Web Application간의 비교를 통해 똑같아 보이는 웹페이지라 할지라도 크롤링 관점에서 어떤 차이가 있는 지에 대해서도 살펴보겠습니다.

31:15 (1회 시청)

보다 효율적인 크롤링을 위해서는 http(s) 프로토콜과 웹에 대한 이해가 꼭 필요합니다. 웹프론트엔드를 구성하는 기술에 대해서 설명드리고, 다양한 HTTP 클라이언트 프로그램들에서 어떤 목적으로 HTTP요청을 서버로 전달하는 지에 대해서도 살펴보겠습니다.

그리고 파이썬 크롤링 시에 어떤 경우에 requests라이브러리를 쓸 수 있으며, 어떤 경우에 selenium을 검토해볼 수 있는 지에 대해서도 설명드리겠습니다.

41:36 (1회 시청)

파이썬에서는 기본 라이브러리로 urllib이 제공되지만, 이보다 간결한 코드로 다양한 HTTP 요청을 할 수 있는 최고의 라이브러리가 requests입니다. 이 requests 라이브러리에 대한 필수 사용법에 대해서 정리해봤습니다.

31:10 (1회 시청)

파이썬에서 가장 손쉽게 쓸 수 있는 HTML Parser인 BeautifulSoup4 라이브러리 사용법을 정리해봤습니다. 파싱에 필요한 HTML문자열은 requests라이브러리를 쓰시거나 Selenium을 통해서 얻어오시고, 손쉽게 BeautifulSoup4를 통해 HTML을 파싱하세요.

17:53 (1회 시청)

13:10 (1회 시청)

파일 포맷으로는 json, json lines, pickle에 대해서 살펴보며, Pandas를 활용한 CSV/XLSX 저장에 대해서도 살펴봅니다.

추가로 RDB로의 저장방법을 살펴보는 데요. dataset 라이브러리를 활용하여, sqlite 기준으로 코드를 보여드리지만, MySQL/PostgreSQL 등의 서버로 세팅이 되어있다면, 계정정보 변경만으로 손쉽게 insert를 하실 수 있습니다.

54:13 (1회 시청)

파이썬 이미지 처리 라이브러리인 Pillow 라이브러리를 활용하여, 이미지 썸네일/크기변경/이어붙이기/포맷변경을 하는 방법에 대해서 살펴봅니다.

23:57 (1회 시청)

지난 에피소드에 미션으로 내어드린 “연결된 여러 이미지 합치기”에 대한 풀이 에피소드입니다.

10:21 (1회 시청)

크롤링하고자 하는 사이트가 자바 스크립트로 처리된다고 무조건 Selenium이나 Splinter를 써야하는 것은 아닙니다. 자바 스크립트를 통해서 처리되는 컨텐츠를 어떻게 requests 라이브러리를 통해 크롤링하는 지에 대해서, 몇 가지 예시즐 통해 살펴보겠습니다. Selenium/Splinter 라이브러리는 중급 코스에서 살펴볼 예정입니다.

27:36 (1회 시청)

크롤링 코드 실행을 사람에 의해서, 혹은 스케줄러에 의해서 실행을 주로 하게 됩니다. 하지만 챗봇과 붙여보신다면, 훨씬 더 재미있고 유용하게 크롤링 코드를 활용하실 수 있게 됩니다.

챗봇에게 네이버 실검 메세지를 주면 프로그램이 이 메세지를 받아 네이버 실시간 검색어를 크롤링을 수행해서, 그 결과를 응답으로 주도록 구성해보겠습니다.

15:33 (1회 시청)

네이버 맞춤법 검사기 페이지에서의 HTTP 요청을 requests 라이브러리를 통해 처리해보겠습니다. 이 페이지는 JSONP 방식으로 요청이 처리되고 있습니다. 이를 처리하는 방법에 대해서 자세히 살펴보겠습니다.

16:11 (1회 시청)

네이버 통합 검색 페이지에서는 하나의 페이지 안에서 “연관검색어”, “쇼핑”, “뉴스”, “블로그”, “지식인” 등의 검색결과가 보여지고 있습니다. 이 중에 연관검색어와 뉴스에 대해서 집중적으로 살펴보겠구요. 뉴스의 경우 태그에서 class가 없이 id가 다양하게 사용되고 있는 데요. 이를 정규표현식을 통해 손쉽게 태그를 찾아보도록 하겠습니다.

18:38 (1회 시청)

네이버 영화 차트에서 예매순/현재상영작/개봉예정작/평점순/박스오피스/다운로드순 차트를 크롤링하는 방법과 함께 개별 영화에 대한 평점까지 같이 살펴볼 수 있도록 하겠습니다. :D

29:01 (1회 시청)

동일한 서비스를 하는 멜론/벅스 차트 크롤링을 통해, 유사한 데이터이지만 어떻게 HTML의 차이가 있고 크롤링하는 방법에도 어떤 차이가 있는 지 살펴보겠습니다.

25:15 (1회 시청)

Pandas는 파이썬용 데이터분석/데이터전처리 라이브러리입니다. Pandas에서는 read_html 함수가 제공이 되는 데요. 문자열로 URL을 지정한다면 해당 페이지에 직접 HTTP 요청을 보내어 응답을 받고 table 태그를 찾아 직접 파싱하여 DataFrame 객체 리스트를 만들어줍니다. 크롤링 시에 엄청 유용한데요. 이 방법의 장단점에 대해서 살펴보겠습니다.

08:49 (1회 시청)

네이버 카페 포스팅 중에 거래글 검색결과를 크롤링하고, 해당 포스팅에 대한 상세페이지를 크롤링하는 Tip을 알려드립니다.

23:09 (1회 시청)

클리앙 알뜰구매 게시판에 대해서 살펴보고, 댓글을 수정하고 정제하는 과정에 대해서 살펴보겠습니다.

22:08 (1회 시청)

네이버 쇼핑 검색결과 페이지를 크롤링해봅니다. 기본 크롤링을 통해 이미지 주소, 상품명, 상세페이지 주소, 광고여부, 최저가, 카테고리 목록, 상품스펙 내역, 리뷰수, 별점을 크롤링하고, 찜 갯수는 Ajax통신을 통해 처리되기에 이를 추가처리해봤습니다.

최종 정리된 데이터는 Pandas를 통해서 정리하고, 엑셀로 저장하기까지 실습해봅니다.

33:18 (1회 시청)

네이버 쇼핑, 특정 상품의 “쇼핑몰 리뷰 및 평점”을 수집해보겠습니다. 쇼핑몰 리뷰에서는 다양한 필터링/정렬 옵션이 있는 데요. 이 옵션들에 대해서도 자세히 분석토록 하겠습니다.

  • 랭킹순/최신순
  • 포토리뷰만 보기
  • 별점(5/4/3/2/1)별
  • 주제별 (ex: 가격, 만족도, 품질, 디자인, 성능, 품절, 기능, 사용성, 조작성 등)

25:31 (1회 시청)

크롤링 코드를 작성한 후에 이를 자동화하지 않으면, 그 활용도가 많이 떨어집니다. 먼저 챗봇과 연동하는 방법이 있을 수 있겠구요. 스케줄러와 연동하여 지정 시간에 실행토록 해보실 수도 있겠습니다.

여러분의 크롤링 코드를 원하는 시각에 실행토록 하여, 활용도를 극대화해보세요. :-)

12:03 (1회 시청)

이번 초급편에서는 주로 requests 라이브러리를 통한 요청처리를 진행했었습니다. 이후 중급코스에서는 Selenium을 통한 처리에 대해서 살펴볼 것인데요. requests/Selenium 처리 상의 차이점에 대해서 간략히 소개해보는 시간을 가져보겠습니다.

12:44 (1회 시청)

이메일을 등록하시면 쓰신 댓글에 대한 답글이 등록되면 이메일로 알려드립니다. 이메일은 스팸함을 꼭 확인해주세요.