はじめに
今回は、PythonでCSVファイルを書き込んだ際に文字化けが発生した問題と、
それを解決する方法について勉強しました。
使用環境は以下のとおりです。
- PC: MacBook Air (11-inch, Early 2015)
- OS: macOS バージョン11.6(20G165)
- Pythonバージョン: 3.8.8(64-bit)
背景
Pythonでデータを処理し、
最終的に**to_csvメソッドを使ってCSVファイルに書き出したところ、
ファイルを開いた際に文字化けが発生**してしまいました。
実際のコマンド
初めに使用したコードはこちらです。
df.to_csv('export.csv', index=False)
dfは、元となるデータフレームです。'export.csv'は、出力先ファイル名です。index=Falseは、データフレームのインデックス列をCSVに書き込まない指定です。
このままでは、日本語を含む文字列が文字化けしてしまいました。
対処方法
① encoding="utf-8_sig"を追加する
調べたところ、to_csvのオプションにエンコーディング(文字コード)を明示的に指定するとよいとわかりました。
そこで、以下のように書き換えました。
df.to_csv('export.csv', encoding="utf-8_sig", index=False)
ポイントは、
- **
utf-8_sig**と指定することです。 sigとは、「BOM(Byte Order Mark)」付きUTF-8を意味し、Windows環境でも文字化けしにくくなります。
この方法で、無事に文字化けせずに保存できました。
他にも使えるエンコーディング例
環境やファイルの用途によって、
もしutf-8_sigでうまくいかない場合、以下のエンコーディングも試すことができます。
| エンコーディング名 | 説明 |
|---|---|
utf-8 | BOMなしUTF-8。Mac/Linux向け。WindowsのExcelでは文字化けすることも。 |
shift-jis | 日本のWindows標準文字コード。Excelで互換性が高い。 |
cp932 | Shift-JISを拡張した日本語Windows向けコード。 |
iso2022_jp | 古いメール用標準。通常のCSVでは使用しない。 |
euc_jp | 古いUNIX系の日本語環境用。近年はあまり使われない。 |
まとめ
to_csvで文字化けする場合は、encoding="utf-8_sig"を指定するとよい。- それでもうまくいかない場合は、環境に応じた別のエンコーディングも試してみる。
- 特にWindowsのExcelで開く前提なら、
utf-8_sigまたはshift-jis系を優先的に検討するとよい。
今回の対応を通じて、PythonからCSVファイルを出力する際は、エンコーディングを必ず意識すべきだと実感しました。
今後もファイル入出力時には、より注意深く文字コードを設定していきたいと考えています。
ここまで読んでいただきありがとうございました。
技術書の購入コストを抑えてスキルアップするなら

ここまで読んでいただきありがとうございます。最後に宣伝をさせてください。
プログラミングの技術書や参考書は、1冊3,000円〜5,000円するものも多く、出費がかさみがちです。Kindle Unlimitedであれば、月額980円で500万冊以上の書籍が読み放題となります。
気になる言語の入門書から、アルゴリズム、基本設計の専門書まで、手元のスマホやPCですぐに参照可能です。現在は「30日間の無料体験」や、対象者限定の「3か月499円プラン」なども実施されています。まずはご自身のアカウントでどのようなオファーが表示されるか確認してみてください。
