【データ分析初心者】kaggleのチュートリアル「タイタニック」をやってみた

データサイエンス

こんにちは。

本日は某都内にてkaggleの勉強会に初心者として参加してきたので、流れや感想をお伝えできればと思います。

これからkaggleを頑張りたいけど何をやったらいいかわからない人にはおすすめの記事です。

Kaggleってなに?

Kaggleは「カグル」と読みます。

 

これは、企業や政府などの組織とデータサイエンティストや機械学習エンジニアをつなげるプラットフォームです。

企業や政府は「課題」を投げ、それにデータサイエンティストやエンジニアが挑戦します。

賞金がかかっているようなものもあります。

 

機会学習を学ぶ人にとってはかなり面白いサイトだと思います。

Kaggleをプレイするための前準備

実際にKaggleをいじるために、準備をしました。

順番に解説します。

開発環境の用意

私も詳しいことはわからないのですが、どうやらpythonというプログラミング言語を駆使してデータ分析をするようです。

そして、そのpythonとやらを使うには開発環境なるものを用意しなければならないようです。

私はそこで、「Anaconda(アナコンダ)」という開発環境を用意しました。

 

Anacondaのインストール方法については、すでに詳しく書かれた記事が回っているのでそちらをみていただければと思います。

ほかにも「Google Colaboratory」というものを用意してもよいそうです。

私は名前がかっこよかったのでとりあえずアナコンダを入れました。

Kaggleのアカウントを作成する

そしたら、次はKaggleのアカウントを作成します。

なんも難しいことはありませんが、一応参考にしたリンクをここに貼っておきます。

 

Googleアカウントを持っている場合は、そのアカウントをKaggleのアカウントとして利用することも可能です。

実際にkaggleに挑戦してみた

では、実際にKaggleにログインしてみましょう。

こんな画面が出ると思います。

「Competitions」は「コンペ」のことで、ここで各企業が出しているコンペを確認することができます。

中にあるこの「タイタニック」というコンペがKaggle界におけるチュートリアルのようです。

タイタニックに乗船していた客のリストがあり、そこには「氏名」「性別」「年齢」などの情報がある。また、「生き残ったかどうか」という情報もある。

この情報を利用し、どういった要素が生存できるか否かを決めるのがこのゲーム(?)だ。

今回の勉強会ではすでに解いてあるファイルをもらい、それをjupyter notebookとやらで開いた。(Anacondaをインストールしていればjupyter notebookは使えるらしい。)

開いてみるとこんな感じである。

null
null

さっぱりわからない・・・。

正直、最初は何もわかりませんでした。

今後の勉強の進め方

勉強の方法を聞いたところ、「慣れる」のが最も効率的だそう。

これは私がpythonの画面を見てわからない言葉をググっているときの脳内イメージです。

こんな感じでひとつひとつ「わからない」をなくすことでなんとか解釈はしていけそうです。