親です。

子ども産まれたんで育児とかについて書きます。映画とか心理学とかITとかの趣味についても書きます。

【Python】pandas - pandasのざっくり理解

おつです。かく。

pandasのざっくり理解

pandasが何かっていうと、取り扱いたいデータを1〜3次元レベルでまとめて扱うことができ、また統計的な処理も可能な便利ライブラリ。
PyQでざっくり勉強したんだけど、以下のようなことができるってわかった。

Pythonのpandasでできること(ここまで理解した範囲)】

●pandas固有の処理
・DataFrame型っつーテーブルみたいなデータを作れる。
・Series型っつー1次元データも作れる。
csv, jsonをDF型に読込・書出
SQLぽい処理
・DF型に対して列の追加、編集(算術計算、関数使って追加することも可能。for文使わずその列全てに関数かけられるapplyとかが便利)
・DF型の絞り込み(クエリぽいquery()や行名列名指定のloc())
・DF型の連結(連結はガチッとくっつけるだけ。縦横指定可能)
pd.concat([df1, df2])pd.concat([df1, df2], axis=1) ・DF型の結合(結合はキーで結ぶ)
pd.merge(df_log, df_master) ・indexに特定カラムを指定(df.set_index('カラム名'))
●前処理ぽい?やつ
・欠損値の扱い(欠損値を含むデータの削除、欠損値を特定の値に変換するなど)
・データの型を変換(pd.to_datetime) ・時系列データの扱い
日付データとしてどう読み込むかとか、リサンプリング(幅の問題)とか。
●統計処理
・統計量の算出
・クロス集計など
・図表の描画(ハコヒゲ、ヒストグラム

まあこんな感じに眺めてみると、SQLぽい処理とかはいちいち覚えるよりかチートシート的な記事を一回眺めてどんなことができるか確認したのち、適宜チートシートみて書いていくとかの方が良さそうだと思った。
ってことでチートシートがこちら。

qiita.com

これは結構よかった。

今まで書いたpandasまとめ記事

まとめのために書いたけど、上記のような具合なため、特に必要なくなってしまったものたち。

  1. 【Python】データ分析ライブラリ pandasのざっくりした書き方 - 親です。
  2. 【Python】pandas - DataFrame型とSeries型について - 親です。
  3. 【Python】pandas - 絞り込みを行うiloc, locメソッドについて - 親です。
  4. 【Python】pandas - いろんな処理 - 親です。
  5. 【Python】pandas - いろんな集計、図表の描画 - 親です。

以上!!!