요즘 IT 관련 공모전을 보다보면 빠질 수 없는 키워드가 하나 있다. 바로 "빅데이터 분석" 앱 개발이던 다른 서비스 구현이던 데이터분석을 베이스로 깔고가는 느낌이다. 예전에 학교에서 진행한 자율강좌 들을 때 판다스랑 머신러닝에 대해서 배운 적이 있는데 후반부로 갈 수록 어려워졌기에 한동안 잊고 살았다. 그러다가 최근 공부할 필요성을 느껴서 다시 공부를 시작했고 관련 프로그램도 참여중이기에 복습 + 정리를 위해 올리는 포스팅.
판다스가 도대체 뭐야?
프로그래밍을 할 때는 라이브러리를 적절하게 잘 사용하는 것이 중요하다. 프로그래밍을 하다보면 누구든 특정 과정(코드)를 반복해서 써야하는 경우가 많다. 라이브러리는 그러한 코드를 모아 둔 것으로 우리가 프로그래밍을 할 때 가져다 쓸 수 있다. 그리고 데이터 분석을 위해 많이 사용되는 라이브러리가 바로 판다스(pandas)이다. 쉽게 말해서 판다스는 데이터 분석을 위한 도구이다!
판다스는 빠르고, 강력하며, 활용도가 높으며 쉬운 데이터 분석 오픈 소스이자 도구이다. 판다스는 파이썬 언어 위에서 동작하기에 프로그래밍에 기초가 없는 사람들로 파이썬만 배우면 쉽게 접근할 수 있는 있다.
판다스 왜 배워야 하는 건데?
앞서 이야기 한데로 판다스는 데이터 분석을 위한 도구이다. 요즘은 코딩이 필수교육이 된 세상. 앞으로 데이터 분석은 계속 필요로 해질 것이고 요즘은 정부 기관에서도 데이터 분석에 대한 수요가 증가하고 있기에 데이터분석을 위한 교육까지 해주고 있는 추세이다. 물론 전문 빅데이터 분석가가 되려면 석사를 요구하는 곳이 대부분이지만 공부는 다다익선. 모르는 것보다는 아는 것이 좋으니! 또한 빅데이터는 단순히 IT 분야 뿐만 아니라 마케팅부터 자율주행과 같은 다양한 연구분야, 개인화, 제품과 재고 관리 등 정말 다양한 분야에서 쓰인다. 그렇기에 요즘은 IT학과 외의 비전공 학과들에서도 데이터 분석을 많이 배우는 추세이며, 빅데이터 전문가에 대한 수요도 증가하고 있다.
판다스를 배우기 위한 준비물
프로그래밍이라고 하면 고사용 노트북을 필요로 한다고 생각할 수 있지만 구글 코랩(Colaboratory)이나 Jupyter를 통해 판다스를 실행시킬 수 있기에 인터넷만 있다면 누구든 시작할 수 있다. + 파이썬 기초 지식 필요!
Colab은 브라우저에서 파이썬 코드를 작성하고 실행할 수 있는데 코드를 셸 단위로 실행할 수 있기에 결과를 직관적으로 바라 볼 수 있으며 조각별로 원하는 결과를 확인할 수 있다. 뿐만 아니라 GPU에 무료로 접근이 가능하며 공유나 저장또한 간편하다. 또한 라이브러리를 따로 설치할 필요가 없기 때문에 그냥 불러와서 사용하기만 하면 돼서 정말 편리하다 👍👍
만약 colab이나 jupyter등을 활용하지 않고 파이참을 이용하고 싶다면 파이참을 다운로드 받은 후, 필요한 라이브러리를 다운로드 받아주면 된다
'데이터분석 🔎 > python library' 카테고리의 다른 글
[NumPy] 넘파이란? 넘파이 배열 생성과 선언- np.array,np.arange,np.linspace (0) | 2021.07.06 |
---|