데이터분석 🔎 8

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb7 in position 0: invalid start byte 오류

데이터 처리를 위하여 Pandas의 read_csv 함수로 다음과 같이 파일을 읽어오던 도중 아래의 오류를 만났습니다. recipe_ingredient_csv = pd.read_csv('recipe_ingredient_info.csv') error ↓ UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb7 in position 0: invalid start byte 처음에는 read_csv에서 encoding 형식을 utf8로 지정해주면 될 것이라고 생각하여 파라미터값으로 encoding='utf8'을 추가해줬지만 계속 같은 오류가 발생하였습니다. recipe_ingredient_csv = pd.read_csv('recipe_ingredient_info.cs..

[데이터 분석 라이브러리] 파이썬 판다스 Series, DataFrame

3. 데이터 조작 및 분석을 위한 Pandas 기본 01. Pandas란 02. Series 데이터 03. 데이터프레임 01. Pandas 란 Pandas : 구조화된 데이터를 효과적으로 처리하고 저장하기 위한 파이썬 라이브러리 Pandas 특징 - Array 계산에 특화된 Numpy를 기반으로 설계되었다. - 파일(또는 URL)로부터 표로 나타낸 데이터를 불러오는 데 가장 접근하기 쉽고 거의 완벽한 기능을 제공한다. - 시리즈, 데이터프레임이라는 구조를 사용하여 서로 다른 형태 및 시계열 데이터의 복잡한 테이블을 다룰 수 있게 해준다. - 데이터 핸들링(자르기, 빠진 요소 삭제/추가, 명칭 변경, 합치기 등)과 시각화에 편리한 기능을 제공한다. - 관행적으로 pd라고 불러온다. import pandas..

[데이터 분석을 위한 라이브러리] 파이썬 numpy, numpy와 list차이

2. 데이터 핸들링을 위한 라이브러리 Numpy 01. Numpy란 02. Numpy와 파이썬 List 차이 03. 배열의 기초 04. 배열의 속성 05. 실습 06. Indexing & Slicing 01. Numpy란 Numpy : 파이썬에서 과학계산과 데이터 분석에 필요한 기본 패키지로 대규모의 다차원 배열을 다룰 수 있게 도와준다. (Numerical Python의 약자로, 수치적 파이썬을 의미.) 즉, 여러 차원의 큰 배열을 다룰때 유용한 패키지로, 데이터 분석을 위해서 pandas와 함께 필수적으로 숙지해야 하는 패키지이다. * 데이터 분석 및 머신러닝에 자주 쓰이는 파이썬 라이브러리로는 Numpy, Pandas, Matplotlib, Tensorflow, Pytorch, Scipy, Kera..

[데이터 분석을 위한 라이브러리] 파이썬 모듈이란?

1. 파이썬의 여러가지 모듈과 패키지. 01. 모듈이란 02. 모듈 사용하기 03. 모듈 만들기 04. 패키지 05. 실습 01. 모듈이란 코드의 길이가 길어지는 상황들이 발생. 이때 필요한 모든 함수나 변수를 구현하는 것은 불가능 => 누군가 만들어 놓음 함수, 변수 등을 활용. 이런 함수와 변수의 모음집을 모듈이라고 한다. 모듈 : 특정 목적을 가진 함수와 자료의 모임. 예를들어 '라면 레시피'라는 모듈이 있다고 하자. 이 모듈안에는 다음과 같은 자료와 함수가 있는 것! 스프의 양 : 5 넣어야 하는 물의 양 : 550 쿠지라이식 라면 끓이기 : ku_ramen() 해장라면 끓이기 : sok_ramen() 02. 모듈 사용하기 모듈을 사용하기 위해서는 import문 사용. #random 모듈 불러오기..

geopandas 설치 에러 - python setup.py egg_info Check the logs for full command output, failed with initial frozen solve. Retrying with flexible solve.

밑에 글에는 제가 geopandas를 설치하면서 겪은 수많은 에러들이 나와있는데요, 저와 같은 에러를 겪으신 분들은 다른 거 필요없이 아래의 방법을 추천드립니다. https://geopandas.org/getting_started/install.html 해당 사이트에 나온대로 아래와 같이 가상환경 만드시는데 여기서 정말 중요한게 ★★python=3.6.8★★ 이렇게 파이썬 버전을 낮춰줘야 합니다 ㅠㅜㅠ 진짜 이것때문에 얼마나 땅을 팠는지... python버전만 다운그레이드해서 가상환경 만들어 주시고 나머지는 사이트에 나온 대로만 따라하시면 문제없이 geopandas 설치 가능합니다. 이렇게 가상환경을 만들어주고, geopandas까지 설치해줍니다. #geo_env대신 본인이 설정하고자 하는 가상환경 이름..

[NumPy] 넘파이란? 넘파이 배열 생성과 선언- np.array,np.arange,np.linspace

NumPy란? 넘파이란 파이썬에서 scientific computing에 사용되는 패키지이다. 파이썬 라이브러이 중 하나로 다차원 배열과 행렬을 다룰 때 유용하며 데이터 분석 시 일반적으로 판다스와 같이 호출하며 데이터 분석시 판다스와 같이 사용되는 주로 라이브러리이다. 라이브러리를 호출 할 때는 아래와 같이 np라고 부르는 것이 일반적이다 import numpy as np ndarray ndarray는 NumPy에서의 배열 클래스로 Numpy의 배열 객체이다. ndarray는 NumPy 패키지의 핵심이며 사용자에게 n차원의 배열을 위한 인터페이스를 제공한다. numpy에서의 array는 다차원 배열을 다루기에 파이썬 표준 라이브러리에서 하나의 차원만을 다루는 array와 다르다 ndarray 생성 Py..

[데이터분석] 데이터 분석의 시작 판다스(pandas)

요즘 IT 관련 공모전을 보다보면 빠질 수 없는 키워드가 하나 있다. 바로 "빅데이터 분석" 앱 개발이던 다른 서비스 구현이던 데이터분석을 베이스로 깔고가는 느낌이다. 예전에 학교에서 진행한 자율강좌 들을 때 판다스랑 머신러닝에 대해서 배운 적이 있는데 후반부로 갈 수록 어려워졌기에 한동안 잊고 살았다. 그러다가 최근 공부할 필요성을 느껴서 다시 공부를 시작했고 관련 프로그램도 참여중이기에 복습 + 정리를 위해 올리는 포스팅. 판다스가 도대체 뭐야? 프로그래밍을 할 때는 라이브러리를 적절하게 잘 사용하는 것이 중요하다. 프로그래밍을 하다보면 누구든 특정 과정(코드)를 반복해서 써야하는 경우가 많다. 라이브러리는 그러한 코드를 모아 둔 것으로 우리가 프로그래밍을 할 때 가져다 쓸 수 있다. 그리고 데이터 ..

반응형