目次
使用環境
- OS:Windows 10 Pro(バージョン:20H2)
- 言語:Python(pandasライブラリ使用)
経緯
PythonでCSVファイルからデータを抽出した際、
**データの中央値(メディアン)**を確認したい場面がありました。
そこで、中央値を簡単に求める方法について学びました。
解決方法:pandasのmedian()
関数を使う
pandasライブラリには、データの中央値を求めるためのmedian()
メソッドが標準で用意されています。
コード例(データフレームから中央値を求める)
import pandas as pd
# データフレームを読み込む例
df = pd.read_csv("sample.csv")
# 中央値を計算
median_values = df.median()
print(median_values)
コード解説
pd.read_csv()
を使って、CSVファイルからデータフレーム(df)を作成します。df.median()
を実行することで、各列ごとの中央値が算出されます。- 結果は**シリーズ(Series型)**として返され、各列に対する中央値が一覧表示されます。
ポイントまとめ
- 数値データに対してのみ中央値が計算されます。文字列型の列は無視されます。
- 特定の列だけ中央値を出したい場合は、列名を指定してから
median()
を呼びます。
例:
df["売上金額"].median()
まとめ
Pythonでデータの中央値を求めたい場合は、
データフレーム.median()
と記述するだけで、簡単に取得することができます。
中央値はデータのばらつきや外れ値の影響を受けにくいため、
グラフ化や統計分析の際にも非常に役立ちます。
ここまでお読みいただき、誠にありがとうございました。