파이썬

[python/pandas] read_csv에서 인코딩 문제 해결 방법 (UnicodeDecodeError)

도도o 2024. 7. 21. 00:54


CSV 파일 인코딩 문제 해결 방법

csv로 저장한 파일을 판다스로 불러올 때, 인코딩 문제로 에러가 발생할 수 있다.

import pandas as pd
df = pd.read_csv('fraud_list.csv')

 

에러메세지는 다음과 같다:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 599: invalid start byte

 

이 에러는 파일에 한글이 포함되어 있어 인코딩에 문제가 발생했기 때문이다. 이를 해결하기 위해 인코딩을 명시적으로 지정할 수 있다.

한글이 포함된 파일의 경우 'cp949'나 'euc-kr' 인코딩을 사용하면 된다.

 

해결:

import pandas as pd
df = pd.read_csv('fraud_list.csv', encoding='cp949')

 

이와 같이 인코딩을 지정하면 데이터프레임을 정상적으로 불러올 수 있다.

 

 

+) 추가

csv를 MS Excel로 열 때 한글 깨짐 현상 해결방법

MS Excel에서 CSV 파일을 열 때 한글이 깨지는 현상이 발생할 수 있다. 이 문제를 해결하기 위한 방법은 다음과 같다:

  1. CSV 파일을 메모장으로 연다.
  2. 파일을 "다른 이름으로 저장"하여, 인코딩을 'UTF-8'로 지정한다.
  3. 새로 저장한 파일을 다시 Excel로 연다.

이 방법으로 Excel에서도 한글이 깨지지 않고 정상적으로 표시되도록 할 수 있다.