どうも、カタミチです。
今日の話も昨日に引き続き「データサイエンティスト入門」(以降、『本書』)の内容から。今回は「データエンジニアリング力」に関する話です。
データエンジニアリング力とは、詰まるところ「コンピュータ上でデータやデータ分析ツールが扱える能力」だと本書では述べられています。ではその「データ分析ツール」にはどんなものがあるかというと…3つに分類されるようです。
・パッケージ
・プログラミング言語とライブラリ
・サービス
それぞれ見ていきたいと思います。
パッケージ
パッケージ(ソフトウェア)をインストールするだけで動作するもの
と定義されています。代表的なパッケージは「Microsoft Excel」「SPSS」「SAS」「DataRobot」。
イメージしやすいのはExcelですかね。だいたいの方が扱ったことがあるツールだと思いますが、データ分析用に使う場合は「分析ツール」「ソルバー」というアドインを入れる必要があるみたいです。SPSSとかSASって言うのは、私もなんとな〜くは聞いたことありましたが、データ分析ツールだったんですね。
DataRobotってのは知らなかったのでちょっと見てみたんですが、2012年に設立された企業の製品みたいです。
DataRobot - Enabling the AI-Driven Enterprise
…正直、どんなことができるのかはリテラシーの低い私には掴めなかったんですが、最先端を行っており、日本でも色んなベンダーに担がれている有力な製品だ、ということは分かりました、はい。
プログラミング言語とライブラリ
プログラミング言語、あるいはライブラリ(プログラムをひとまとめにしたファイル)として組み込んで使うもの
はい、分類の2つ目はこれです。
デファクトスタンダードは「R」と「Python」だ、とあります。お互いに強みが違う部分もあるけど、もし今から勉強するならPythonがいいんじゃないかなぁ、と本書には書かれています。本書以外のところの記事や書籍も見ましたが、どうやらPythonの方に流れが来ているようですね。
サービス
最後にサービス。
クラウド上でサービスとして利用できるもの
とあり、2つ紹介されています。
・Google Colaboratory
・Amazon SageMaker
やはりここでもGoogleとAmazonですね。この二社は特に、AIに関して技術をオープンにしていくスタンスを感じますね。
実はGoogleのColaboratoryについては、既にちょっと触ってみてるんですよ、ええ。「サービス」って分類に置かれてますが、実際のところ「あらかじめ豊富なライブラリが揃ったPythonの実行環境」って感じなので、分析ツールを習熟するって観点では「プログラミング言語とライブラリ」のカテゴリとあまり違いが無さそうです。AmazonのSageMakerについては触ったことがないので全く分かりませんが、クラウド上に環境があるって事でどこからでも気軽にアクセスできる…ってのは良さそうですね。
結局何が使いこなせればいいのか?
残念ながら本書では、この中でこれを使いこなせるようになっとけ!みたいな言及はなかったのですね。あらゆる分析ツールを使いこなせる…っていうのが一番なんでしょうけど、できることに差が少ないならどれかひとつをまず使いこなせるようになっておく…ってのが良さそうです。
その点からすると、個人的にはPython+ライブラリがいいんじゃないかなぁ、と感じました。パッケージを選択したとしても習熟に手間がかかりそうだなぁ、ということに加えて、Pythonの場合、新しいライブラリが出たらすぐに取り込むことで小回りが効きそう…って事があるからです。
とりあえずは環境構築の手間がかからないColaboratoryを使いつつ、限界を感じてきたらPythonの環境を自前で構築する…という感じですかね。
ということで
今回の勉強でようやく、データサイエンティストの道具箱を覗くことができた気がします。なるほどなー、と思った反面、この「データ分析ツール」だけでは「データが蓄積し続ける事で推論の精度が上がっていくサイクル」みたいなものは構築できなさそうだなー、と感じました。
データサイエンティストの仕事が、ビジネス課題に対する「打ち手」を考えるという側面が強い(というかそういう職業である)って事が分かってきたことで、「なんか新たな切り口のすごいAIを作りたい」みたいなタスクは職業としては確立しずらいんだろうなぁ、とも感じました。
ではまた。