親です。

子ども産まれたんで育児とかについて書きます。映画とか心理学とかITとかの趣味についても書きます。

【Python】データ分析・機械学習わけ分かんねえからまとめ

おつです。データ分析・機械学習のまとめする。

データ分析・機械学習とは?

うーん機械学習っていうとなんだか機械にこうものを教え込むみたいな感じで要領を得ないが、これ結局は分類器を自動で作る技術らしい。 つまり、AとBを判別するとき、人はそれらを判別する基準みたいなのを持っている。機械学習では、ビッグデータと統計的威力を駆使してその判別基準を自動的に作成してしまおうという試みっぽい。Pythonはそれらのライブラリが豊富で、あと俺もゆくゆくはそっち行きたいから、勉強する。
勉強の進め方としては、
- PyQ
- 数学の復習
- 統計・機械学習の勉強
- coursera
- kaggle
って感じの流れ。かなり座学が多くなってしまうので、理解できないうちから実戦にも手を出していきたい。kaggleのチュートリアルを写経するとか。

判別技法の種類

判別基準を作成する方法はいくつかある。以下はAmazonより引用。

1)教師あり学習 回帰・分類
  教師なし学習 クラスタリング

2)回帰
最急降下法
確率的勾配降下法(局所解に捕まりにくい)

3)分類
パーセプトロン
ロジスティック回帰(確率による分類)(尤度関数と対数尤度関数)

線形分離可能と線形分離不可能

4)評価
回帰問題
分類問題
Accuracy
Precision(適合率)
Recall(再現率)
Fmeasure(Precision + Recall)
Weighted Fmeasure

過学習対策としての正規化
学習曲線
未学習(ハイバイアス)と過学習(ハイバリアンス)の曲線

こういうのがあるらしい。まあ機械学習の個々の技法については、追々で埋めていければいいなと思う。
こういう参考記事もある。

qiita.com

データ分析系ライブラリまとめ記事

  1. 【Python】データ分析 - データ分析って、つまり、どういうことなのか考える - 親です。
  2. 【Python】pandas - pandasのざっくり理解 - 親です。
  3. 【Python】NumPy - NumPyのざっくり理解 - 親です。

機械学習まとめ記事

  1. 【Python】sk-learn - ロジスティック回帰(LogisticRegression) - 親です。
  2. 【Python】機械学習 - 前処理のこと - 親です。
  3. 【感想】『データサイエンティスト養成読本 登竜門編』を読んで - 親です。
  4. 【データ分析】Pythonを使ってデータをざっと把握する - 親です。
  5. 【機械学習】メモ - 2018/10/20以降の勉強の仕方メモ - 親です。

以上!!!