「見るべきは称号だけじゃない。そこに至る学びや実力が重要」Kaggle本著者が語るKaggleへの取り組み方

“ーーAIが人の仕事を奪うーー”このフレーズが頻繁に使われるようになってから、早くも数年が経とうとしている。すでにビジネスの現場では多くのAIが導入され、日々進化を遂げている。“AIが人の仕事奪う”ということが、あながち嘘でなくなっている状況だ。しかし、ちょっと立ち止まって考えて欲しい。AIは人から仕事を奪うだけなのだろうか?むしろAIが「新たな仕事」を生み出しているという側面もあるんじゃないだろうか。

今回はそのうちの1つである「データサイエンティスト」。データ分析の最前線で活躍され、2019年10月にはデータコンペティションサイト「Kaggle」についての書籍を執筆された門脇さんにデータ分析についてお話を伺った。

目次

予約の時点から大盛況。データ分析におけるKaggleの影響度の高さ

【門脇大輔(かどわきだいすけ)】京都大学総合人間学部卒業後、生命保険会社でアクチュアリーとして10年ほど商品開発・リスク管理などに従事した後、Kaggleに取り組む。 Kaggle Competitions Master(Walmart Recruiting Ⅱ:Sales in Stormy Weather 優勝、Coupon Purchase Prediction 3位)

ーー『Kaggleで勝つデータ分析』がとても大好評で…。かなり多くの人に読んでもらえたのでは?

ありがたいことに多くの方に読んでいただいています。発売からの1週間で池袋ジュンク堂で週間トップテンに入ったり、Amazon で数日間トップ20以内には入っていました。マニアックな部分も含んだ技術書なので正直、ここまで読んでもらえるとは思っていなかったですね。

ーーこの本を書かれたきっかけはなんですか?

もともと2、3年前にこの本のプロジェクトが始まり、当時お声がけいただいた時は断ったのですが、2018年の7月ぐらいにもう一度お声がけいただき、たまたま私も時間が作れるタイミングでしたので参加しました。

ーー1冊の本を作り上げるというのはとても大変な仕事だったのではないでしょうか?

そうですね、思いの外大変で、時間はかなりかかりました。数行の記述について調査したり表現を吟味するだけで何時間もかかったり…。ですが、共著者の方とかなり議論させていただき、そのおかげでだいぶ助かりました。

思ったのは、50点の本はそこそこ簡単に書くことができるのかなと。そこから点数を上げていくことが難しいと思いました。70点、80点と上げていくにつれて1点を上げるのがどんどん大変になり、そこで共著者の方とのチームであることが効果的でした。

ーー予約の時点でかなり評判でした。

Kagglerの方々など盛り上がっていただいたり、献本をお送りした方にレビューを書いていただけたことが大きかったと思います。また、詳細な目次を公開したことも影響したと思います。目次は本の内容を的確に要約しているわけで、それが興味と合致していれば安心して買うことができるので。

ーーこの本の反響をどのように受け取られていますか?

思った以上にKaggleをやらない層だったり、初心者の方に受け入れてもらえたと思っています。技術的な内容をわかりやすく説明するように心がけたのが理由かもしれません。

高校数学までの知識で問題ない。経験のない方でも取り組みやすいのがKaggle

ーーここからは門脇さんご自身のお話に入りたいと思います。どのような経緯でKaggleや機械学習を始めましたか?

もともと機械学習の本を読んでコードを動かしたりしていました。ですが、あまりやる気はでなかったです。そんな中、職業柄繁忙期はかなり忙しいんですが、そういう時こそ何か始めたくなり、2015年4月にKaggleのWalmart Recruting Ⅱというコンペに参加しました。何も分からないまま1ヶ月ほどやり続けていたところ、気がついたら優勝していました。ただ、ラッキーが重なった部分は大きかったです、他の人気のあるコンペの裏に隠れたコンペだったのと、機械学習の技術がやや活かしづらいデータで、そこで自分の用いた手法がたまたまハマったので。

ーーそれが一番最初に参加したコンペだったというのもすごい話ですね。

逆に言えばあまり経験がなくても、やりようによっては上位の成績を取ることができるのがKaggleの魅力なのかもしれません。

ーーもともと数学や統計を専攻されていたのですか?

大学は理系ですが、あまり数学はしていなかったです。高校数学までの知識がある程度身についていれば、それなりにはできると思います。タスクに取り組むという点では、ちゃんと問題の性質を捉えることの方が大切だと思います。

データの意図をいかに読み取れるかが重要

ーーハイスコアを取る上で何がキーとなると考えていますか?

テーブルデータのコンペに関しては、まずはタスクやデータを把握することが重要だと思っています。そして、データを丁寧に見ることだと思います。

ーー門脇さんがデータを見る上でどこに着目していますか?

まずは何を求められているタスクか、どのように作られたデータかを考えます。タスクに応じて、この特徴量は効くはずだとか、こういう単位で集計をする必要がある、などと考察できます。また、どのように作られたデータかを考えることで、この特徴量は処理を加えるとより効果的になりそうとか、本当はこのような列があるけれども敢えて主催者が削除したのではないか、といった考察ができます。

また、いろいろな視点で可視化するなどしてデータを眺めてみます。最初はちょっとしたプロットにも時間がかかりますが、慣れたり、自分用のライブラリを作っていくうちに効率的にできるようになると思います。

データを見る目的は、効果的な特徴量を作るための気づきを得ることなのですが、なかなか難しく、閃きが必要なこともあります。

ーー初学者の方に向けて、これはやるべきといったことはありますか?

機械学習関連でいろんな本が出版されていて、私の本もその一つなのですが、インプットをある程度進めたあとには、何か解くべきタスクを見つけて一回飛び込まないとしょうがないと思います。その意味でKaggleはとてもいい機会です。たまに、初心者向けのコンペはありますか?といった質問があるのですが、どのコンペも一癖二癖あり、選んでいるとどれにも出られないので、とにかくまずは参加してみることだと思います。ただ、データが巨大なコンペなど計算リソースが大量に要求されるものもあるので、それは避けて良いでしょう。

ーーやり続けることが大切ですよね。ただその上でどのコンペを選ぶかも重要かと思います。門脇さんはどのような基準でコンペを選んでいますか?

最近は少しKaggleから離れているのですが、熱心に参加していたときはテーブルデータを中心に面白そうなコンペに参加していました。一見してアプローチが分かりづらい、変なコンペの方が勝ちやすい気がしていましたが、選り好みできるほどコンペがたくさん開催されているわけではないので、開催されている中で興味のあるものに出ていました。

ーー最後に、最近のKaggleを取り巻く環境はいかがでしょうか?

最近Kaggleが有名になってきて、Kaggleでの実績が就職などに効果的な場面もあるようで、とても良いことです。ただ、たまにkaggle MasterやGrandmasterだから凄いとか、称号がやや過剰に意識される事があるかなと思います。称号は分かりやすいアピールポイントですし、強力なモチベーションになるので、上手く使うと良いでしょう。一方で、見るべきものはそこに至るまでの学びや、技術力や考察力といった実力ということを意識して楽しむと良いのではないでしょうか。

AIによって生み出される「新しい仕事」にどう取り組むか

“ーーAIが人の仕事を奪うーー”

確かに、AIはこれまで築き上げてきた仕事を奪う一面もある。しかしその一方で、AIによって生み出される仕事も多くあるのだ。

AIに使われるのか、それともAIを使うのか。その決断に迫られるのは「今」かもしれない。

よかったらシェアしてね!
目次
閉じる