(초급) Pandas 워밍업 (완료)

본 코스는 구독 VOD로 제공됩니다. (구독 확인을 위해 회원가입/로그인이 필요합니다. 구독정책은 구독정책 페이지에서 확인하실 수 있습니다.)

Pandas 기초 문법에 대해서 살펴보고, 멜론 TOP100 차트를 크롤링하여 Pandas를 통해 분석해봅시다.

파이썬과 Jupyter Notebook은 설치되어있다는 가정 하에 Pandas 라이브러리를 설치하고, 개발환경을 점검해봅시다.

10:40 (1회 시청)

Pandas를 통해 멜론 차트 데이터를 처리하기 전에, 파이썬 크롤링을 통해 데이터를 먼저 획득해봅시다. requests라이브러리와 BeautifulSoup4 라이브러리를 활용합니다.

14:37 (1회 시청)

멜론 TOP100의 곡별 좋아요를 크롤링하는 절차에 대해서 살펴보고 이를 requests/BeautifulSoup4를 통해 크롤링해봅시다.

11:05 (1회 시청)

BeautifulSoup4를 통해 직접 크롤링 로직을 직접 구성할 수도 있지만, pandas.read_html을 통해서 보다 손쉽게 별도 로직없이 웹페이지의 테이블을 pandas.DataFrame 객체로 획득할 수 있습니다. 편리해보이지만 복잡한 웹페이지에서는 불필요한 데이터가 들어가게 되어 사용이 힘들 수도 있습니다.

06:43 (1회 시청)

위에서 크롤링한 멜론 TOP100 곡/좋아요 목록 list/dict을 Pandas.DataFrame으로 변환해서 처리해봅시다. 엑셀의 worksheet 류의 데이터를 Pandas를 통해 손쉽게 분석하실 수 있어요. :)

  • df.sort_values('좋아요', ascending=False) 코드 만으로 좋아요 역순 정렬
  • df[df['좋아요'] > 200000] 코드 만으로 좋아요 수가 200,000이 넘는 곡 만 필터링

14:24 (1회 시청)

파이썬의 기본 자료구조에서는 2차원 이상의 데이터를 다룰 자료구조가 없습니다. 그렇기에 pandas에서는 주요 자료구조로서 Series와 DataFrame이 제공하고 있습니다. 각각 1차원과 2차원 이상의 지정 데이터 범위에 대해 다음과 같은 여러 기능들을 제공해줍니다.

  1. 각종 연산 수행 : 더하기, 곱하기, 나누기 및 참/거짓 및 커스텀 연산
  2. 지정 조건의 데이터만 필터링
  3. 지정 범위에 대해 각종 통계값 계산

Series/DataFrame에 대해 간략히 소개하는 시간을 가져보겠습니다.

20:23 (1회 시청)

DataFrame은 csv, excel, dict, html, json 등의 다양한 포맷으로의 변환 및 저장을 지원해줍니다. 이 중에 대중적으로 사용되는 포맷은 csv와 excel포맷으로의 저장을 살펴보겠습니다.

06:37 (1회 시청)

이메일을 등록하시면 쓰신 댓글에 대한 답글이 등록되면 이메일로 알려드립니다. 이메일은 스팸함을 꼭 확인해주세요.