【Python】to_csvで書き込んだCSVが文字化けしたときの対処方法

目次

はじめに

今回は、PythonでCSVファイルを書き込んだ際に文字化けが発生した問題と、
それを解決する方法について勉強しました。

使用環境は以下のとおりです。

  • PC: MacBook Air (11-inch, Early 2015)
  • OS: macOS バージョン11.6(20G165)
  • Pythonバージョン: 3.8.8(64-bit)

背景

Pythonでデータを処理し、
最終的に**to_csvメソッドを使ってCSVファイルに書き出したところ、
ファイルを開いた際に
文字化けが発生**してしまいました。


実際のコマンド

初めに使用したコードはこちらです。

df.to_csv('export.csv', index=False)
  • dfは、元となるデータフレームです。
  • 'export.csv'は、出力先ファイル名です。
  • index=Falseは、データフレームのインデックス列をCSVに書き込まない指定です。

このままでは、日本語を含む文字列が文字化けしてしまいました。


対処方法

encoding="utf-8_sig"を追加する

調べたところ、to_csvのオプションにエンコーディング(文字コード)を明示的に指定するとよいとわかりました。
そこで、以下のように書き換えました。

df.to_csv('export.csv', encoding="utf-8_sig", index=False)

ポイントは、

  • **utf-8_sig**と指定することです。
  • sigとは、「BOM(Byte Order Mark)」付きUTF-8を意味し、Windows環境でも文字化けしにくくなります。

この方法で、無事に文字化けせずに保存できました。


他にも使えるエンコーディング例

環境やファイルの用途によって、
もしutf-8_sigでうまくいかない場合、以下のエンコーディングも試すことができます。

エンコーディング名説明
utf-8BOMなしUTF-8。Mac/Linux向け。WindowsのExcelでは文字化けすることも。
shift-jis日本のWindows標準文字コード。Excelで互換性が高い。
cp932Shift-JISを拡張した日本語Windows向けコード。
iso2022_jp古いメール用標準。通常のCSVでは使用しない。
euc_jp古いUNIX系の日本語環境用。近年はあまり使われない。

まとめ

  • to_csvで文字化けする場合は、encoding="utf-8_sig"を指定するとよい。
  • それでもうまくいかない場合は、環境に応じた別のエンコーディングも試してみる。
  • 特にWindowsのExcelで開く前提なら、utf-8_sigまたはshift-jisを優先的に検討するとよい。

今回の対応を通じて、PythonからCSVファイルを出力する際は、エンコーディングを必ず意識すべきだと実感しました。
今後もファイル入出力時には、より注意深く文字コードを設定していきたいと考えています。

ここまで読んでいただきありがとうございました。

技術書の購入コストを抑えてスキルアップするなら

ここまで読んでいただきありがとうございます。最後に宣伝をさせてください。

プログラミングの技術書や参考書は、1冊3,000円〜5,000円するものも多く、出費がかさみがちです。Kindle Unlimitedであれば、月額980円で500万冊以上の書籍が読み放題となります。

気になる言語の入門書から、アルゴリズム、基本設計の専門書まで、手元のスマホやPCですぐに参照可能です。現在は「30日間の無料体験」や、対象者限定の「3か月499円プラン」なども実施されています。まずはご自身のアカウントでどのようなオファーが表示されるか確認してみてください。

[Kindle Unlimited 読み放題プランをチェックする]

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

私が勉強したこと、実践したこと、してることを書いているブログです。
主に資産運用について書いていたのですが、
最近はプログラミングに興味があるので、今はそればっかりです。

目次