使用環境
- エディション:Windows 10 Pro
- バージョン:20H2
背景
Pythonで作業している中で、glob
関数を使ってフォルダ内のCSVファイルを取得しようとしました。
しかし、対象のフォルダは複数の階層構造になっており、さらにその下のサブフォルダにもCSVファイルが存在していました。
そのため、今回は複数階層にまたがるフォルダからCSVファイルをすべて取得する方法を学びました。
解決策:パスに「*」を使って階層を指定する
階層に応じて、「*(アスタリスク)」を使ってパスを拡張することで、目的のファイルを取得することができました。
フォルダ構成例
- 「data」フォルダの直下にフォルダA、フォルダBがある
- フォルダAには直接CSVファイルが入っている
- フォルダBの中にはさらにサブフォルダがあり、そのサブフォルダ内にCSVファイルが存在する
文字で説明すると少し分かりにくいかもしれませんが、
要するに階層がバラバラに深くなっている状況です。
サンプルプログラム
from glob import glob
data3 = glob('./data/**/*.csv')
data4 = glob('./data/***/**/*.csv')
プログラムの解説
1行目、glob
ライブラリをインポートしています。
2行目、3階層目にあるCSVファイルをすべて取得しています。**
を使うことで再帰的に検索が可能になります。
3行目、4階層目にあるCSVファイルを取得しています。さらに深いフォルダ構造にも対応できます。
※階層の数え方については多少曖昧な部分もありますが、基本的に**
を重ねることで深い階層までカバーできます。
注意点と失敗談
最初、パスをコピペして使用した際に、
Windows標準のパス表記で「\(バックスラッシュ)」が混ざってしまい、エラーに悩まされました。
また、キーボードから「¥」ボタンを押しても「\」になってしまい、問題が解決できずにいました。
最終的に、「\」を「/」に置き換えることで、正常に動作するようになりました。
まとめ
Pythonのglob
を使用すると、
複数階層にまたがるフォルダ内の特定拡張子(今回であれば.csv)ファイルを一括で取得することができます。
パスに「*」や「**」をうまく使うことで、
サブフォルダやさらに深い階層のファイルにも柔軟に対応できるようになります。
フォルダ構成が複雑な場合でも、シンプルにファイルをまとめて取得したいときに非常に便利なテクニックです。
最後までご覧いただき、誠にありがとうございました。