PythonでCSVファイルなどの外部データを読み込む際、次のようなエラーが表示されることがあります。
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x91 in position 1: invalid start byte
このエラーは、日本語を含むファイルを扱う場面でよく発生します。
本記事ではこのエラーの意味と、その解決方法について解説いたします。
エラーの意味:「utf-8」で読めないバイト列が含まれている
このエラーは、utf-8 という文字コード(エンコーディング)でファイルを開こうとした際に、その文字コードでは解釈できないバイト(文字のかけら)が含まれていた場合に発生します。
byte 0x91 in position 1
→ ファイルの2文字目あたりにある「0x91」というバイト値が、UTF-8では無効だと判断された、という意味です。
原因:ファイルが UTF-8 ではなく Shift_JIS や CP932 で保存されていた
特に日本語が含まれるCSVファイルは、Windows環境では標準でShift_JIS(またはCP932)で保存されていることが多いです。
このファイルをUTF-8として読み込もうとすると、先述のようなUnicodeDecodeErrorが発生します。
解決方法:encoding=’shift_jis’ を指定する
pandasなどでCSVファイルを読み込む場合、read_csv() の引数に encoding='shift_jis' を追加することで、正しく読み込めるようになります。
【修正済みのコード例】
import pandas as pd
csv_file_path = 'sample.csv'
df = pd.read_csv(csv_file_path, encoding='shift_jis')
print(df)
これで、UTF-8で読めなかった文字列も正常に読み込むことができます。
その他のエンコーディング指定候補
場合によっては、shift_jis 以外のエンコーディングが使われていることもあります。以下を試してみてください。
| エンコーディング | 用途例 |
|---|---|
cp932 | Shift_JISのWindows拡張版(日本のPCで一般的) |
utf-8-sig | Excel出力のUTF-8ファイルなどで使用されることがある |
euc_jp | 古いUNIX系システムで利用されていた日本語エンコーディング |
エンコーディングの自動判別ツールも便利
エンコーディングが分からない場合は、以下のようなライブラリを使って自動判別させる方法もあります。
chardet(例)
import chardet
with open('sample.csv', 'rb') as f:
result = chardet.detect(f.read())
print(result['encoding'])
自動判定された文字コードを元に read_csv() の encoding= に指定すれば、より柔軟に対応できます。
まとめ
「UnicodeDecodeError: 'utf-8' codec can't decode byte」は、ファイルのエンコーディングと読み込み側のエンコーディングが一致しないことで起こります。
対処のポイント
必要に応じて chardet ライブラリで自動判別も可能
WindowsのCSVファイルは多くの場合 Shift_JIS(cp932)で保存されている
技術書の購入コストを抑えてスキルアップするなら

ここまで読んでいただきありがとうございます。最後に宣伝をさせてください。
プログラミングの技術書や参考書は、1冊3,000円〜5,000円するものも多く、出費がかさみがちです。Kindle Unlimitedであれば、月額980円で500万冊以上の書籍が読み放題となります。
気になる言語の入門書から、アルゴリズム、基本設計の専門書まで、手元のスマホやPCですぐに参照可能です。現在は「30日間の無料体験」や、対象者限定の「3か月499円プラン」なども実施されています。まずはご自身のアカウントでどのようなオファーが表示されるか確認してみてください。
