PythonでCSVファイルなどの外部データを読み込む際、次のようなエラーが表示されることがあります。
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x91 in position 1: invalid start byte
このエラーは、日本語を含むファイルを扱う場面でよく発生します。
本記事ではこのエラーの意味と、その解決方法について解説いたします。
エラーの意味:「utf-8」で読めないバイト列が含まれている
このエラーは、utf-8
という文字コード(エンコーディング)でファイルを開こうとした際に、その文字コードでは解釈できないバイト(文字のかけら)が含まれていた場合に発生します。
byte 0x91 in position 1
→ ファイルの2文字目あたりにある「0x91」というバイト値が、UTF-8では無効だと判断された、という意味です。
原因:ファイルが UTF-8 ではなく Shift_JIS や CP932 で保存されていた
特に日本語が含まれるCSVファイルは、Windows環境では標準でShift_JIS(またはCP932)で保存されていることが多いです。
このファイルをUTF-8として読み込もうとすると、先述のようなUnicodeDecodeErrorが発生します。
解決方法:encoding=’shift_jis’ を指定する
pandasなどでCSVファイルを読み込む場合、read_csv()
の引数に encoding='shift_jis'
を追加することで、正しく読み込めるようになります。
【修正済みのコード例】
import pandas as pd
csv_file_path = 'sample.csv'
df = pd.read_csv(csv_file_path, encoding='shift_jis')
print(df)
これで、UTF-8で読めなかった文字列も正常に読み込むことができます。
その他のエンコーディング指定候補
場合によっては、shift_jis
以外のエンコーディングが使われていることもあります。以下を試してみてください。
エンコーディング | 用途例 |
---|---|
cp932 | Shift_JISのWindows拡張版(日本のPCで一般的) |
utf-8-sig | Excel出力のUTF-8ファイルなどで使用されることがある |
euc_jp | 古いUNIX系システムで利用されていた日本語エンコーディング |
エンコーディングの自動判別ツールも便利
エンコーディングが分からない場合は、以下のようなライブラリを使って自動判別させる方法もあります。
chardet(例)
import chardet
with open('sample.csv', 'rb') as f:
result = chardet.detect(f.read())
print(result['encoding'])
自動判定された文字コードを元に read_csv()
の encoding=
に指定すれば、より柔軟に対応できます。
まとめ
「UnicodeDecodeError: 'utf-8' codec can't decode byte
」は、ファイルのエンコーディングと読み込み側のエンコーディングが一致しないことで起こります。
対処のポイント
必要に応じて chardet
ライブラリで自動判別も可能
WindowsのCSVファイルは多くの場合 Shift_JIS(cp932)で保存されている
read_csv()
で encoding='shift_jis'
を指定することで解決
スクールの紹介
【アイデミー】AIを学んで一発逆転のキャリアチェンジ!
ここまで読んでいただき、ありがとうございました。
最後に宣伝をさせてください。
夢見るAIエンジニアへ、今こそ一歩を踏み出せ!
最近、AI技術やデータサイエンスに興味を持ち始めたあなた。将来、AIエンジニアやデータサイエンティストとして活躍したいと考えているかもしれません。また、AIを使って業務課題や研究課題を解決したい、あるいは教養としてAIの知識を深めたいと思っている方もいるでしょう。
しかし、学び始めるとなると「どこから手をつけて良いのか分からない」「専門的すぎて理解できない」といった悩みが生じることも。そんなあなたのために、この3ヶ月間集中してAIプログラミングを習得するオンラインコーチングサービスがオススメです!
なぜこのサービスが選ばれるのか?その理由はこちら
- 初心者から上級者まで
完全なプログラミング初心者から研究者まで、幅広い方々に優良なコンテンツが提供されます。 - 徹底的な進捗管理
受講者の進捗をしっかりとチェックし、つまずきやすいポイントでのフォローが万全です。 - 専属メンターによる徹底サポート
AIの学び方から、実際の適用まで、専属のメンターが手厚くサポートします。 - 場所を選ばず学べるオンライン完結
東京以外の地域からも、気軽に学び始めることができます。
信頼の実績多数!
・日本最大級のプログラミングスクール実績
・受講者総数700名以上
・SaaS型学習サービス会員65,000名以上
・企業導入実績120社以上
・グッドデザイン賞受賞
・著名な賞受賞歴や経団連加盟も実現
夢を叶えるための第一歩を、一緒に踏み出しませんか?今なら、あなたもその一員として学び始めることができます!