d_tail's blog

プログラミングについてなど

データ分析コンペ『kaggle』に入門してみました【Titanic】

はじめに

 データ分析のコンペサイトであるkaggleに入門してみました.

はじめかた

 自分は以下の記事を参考にkaggleをはじめました.

生存者を予測する『Titanic』

 記事に沿って,チュートリアルの位置付けらしいコンペである『Titanic』にsubmitしました. 使用したコードですが,データの前処理部分は記事のコードをほとんど利用させて頂きました.
 しかし,学習する部分のコードまでそのままだと面白くなかったので,研究で利用していて比較的慣れている深層学習フレームワークのkerasを用いて適当なモデルを作ってみました.

結果

 結果は6097/9085位で上位63%とあまりよろしくない結果になりました. f:id:d_tail:20180915141749p:plain
 今回は記事のコードを参考にしデータの一部のみしか利用していないため,手法の適当さも相まってこのような結果になったのかなと思います.
 他のデータの利用や上位の人の手法を参考にして改良していきたいところです.

今後

 今回は前処理をほとんど他の人のコードで流用してしまいましたが,他のコンペではそうもいかないと思うので,pandasやcsvの扱いに慣れておく必要があると考えています.
 また,手法については比較的使い慣れているkerasを使った適当なNNを用いましたが,機械学習の基本的(常識的)な手法も必要になると思われるので勉強していきたいです.

リンク

/ - Kaggler-ja Wiki