まったりAI勉強記

AI(人工知能)について、特にゆかりがあるわけでもない社会人が、まったりとAIについて勉強していく勉強日記です。

【G検定】データを集める

どうも、カタミチです。

さて、今日のテーマは「データを集める」ですね。AIの学習はデータがないと始まりませんから、非常に重要ですよね。ということで、早速行ってみましょう!

データの収集方法および利用条件の確認

AIシステムの開発には、特にデータの量と質が重要になりますが、収集先として、オープンなデータセットを利用する、自身で集める、外部から購入するなどがあります。

オープンデータセットとは、企業や研究者公開しているデータセットです。利用条件が決められている場合もありますが、本来高いコストで集めなくてはいけないような大量のデータが利用可能で、適切に使えばプロジェクトを早く進めることができます。例えば、コンピュータビジョン分野ではImageNetPascalVOCMS COCO自然言語処理であればWordNetSQuADDBPedia、音声分野であればLibriSpeechなどが挙げられます。商用利用ができない場合もあるため、利用の際はライセンスに注意を払う必要がありますが、ひととおりどんなものなのかを、実際目で見ておきたいところですね。G検定の試験が終わったら見てみよ。

自身でデータを収集する場合、センサを利用して環境の情報を計測し、データを収集する必要があります。センサには、カメラなどのイメージセンサ、マイクロフォン、形状を計測する3Dセンサなど様々なものがあります。ワクワクしますが、ビジネスプロジェクトで実施する場合には当然ROIを踏まえたセンサ選定が重要ですね。また、ディープラーニングで高精度を出すには大量のデータが必要になるため、その蓄積方法も考慮する必要があります。人の知覚に関する五感のうち、センサとして実用性のあるのは視覚の代替としてのカメラ、聴覚の代替としてのマイクのみです。他の知覚も高精度で捉えられると、新たな研究分野の扉が開かれそうですが、今はまだ、というところですかね。また、人の五感以外のセンサとしては、3Dセンサ、赤外線センサ、X線センサ、電波計測器、超音波計測器、重量計、張力センサなどなど様々なものがあります。確かに、よく考えたら人間に知覚できないものもたくさんありますね。

データの利用条件と制約の確認

データを利用する場合に注意すべきことは、データの利用条件です。データの利用に制約がかかる理由となりうるのは主に…

著作権法 → 論文や写真など著作物にあたるデータの利用
不正競争防止法
→ 営業秘密に当たるデータや限定提供データ
個人情報保護法
→ 購買履歴や位置情報などのパーソナルデータ
④個別の契約
→ ライセンス契約で利用条件が指定されているデータ
⑤その他の理由

といった感じです。

学習可能なデータを集める

データ収集にあたっては、データの偏りをなくすことが必要です。当然、データが偏っているとその偏ったクラスを優先して学習してしまい、データが少ないクラスの精度が低くなってしまいます。また、データの網羅性データの質にも気をつける必要があります。このあたりは、データ収集から自前で行う場合には腕が問われそうですね。実際には、経験から理解していく感じかなあ、とは思います。

データセットの偏りに注意する

データの偏りに関しては、現実世界の偏見や、データがデータベースに登録されていない事による偏りなども注意する必要があります。データ取得者(もしくはデータ取得組織)も現実世界にしがらみ、または立脚する常識がありますので、偏見がある場合があることには注意が必要でしょうね。また、データとして未登録の事象が多いような、潜在化しているような対象も、結果的に偏っている可能性があります。

役割と責任を明確にして外部と連携する

サービスやプロダクトを提供する際、他企業や他業種と連携する場合が増えてきているようです。①データを保有する組織、②データ分析やアルゴリズムの開発に優れた組織、③分析結果やアルゴリズムを利用してビジネス展開をする組織が、必ずしも一致しないためです。

しかし、共同開発や開発委託では、双方の認識のズレやプロジェクト管理の甘さが後々の禍根となり、高額の訴訟に至るケースも散見されるようです。まぁ、あるあるといえばあるあるですが、AIという、企業にとってもまだまだ不慣れなものを取り扱うのですから、さもありなん、という感じですかねー。

このあたりの事情を受けて、経済産業省では、2018年に「AI・データの利用に関する契約ガイドライン」を策定し、2019年に改訂版(ver.1.1)を公表しました。それによると、開発プロセスを、

①アセスメント段階
②PoC段階
③開発段階
④追加学習段階

に分けて、それぞれの段階で必要な契約を結んでいくといいよ、とされているようです。一度ちゃんと見てみますかねー。

ということで

今節は、オープンデータセットが気になりましたねー。書かれているもの以外にも色々とあるんですかね?ちょっと調べてみたいと思いました。また、経産省の出しているガイドラインも、プロジェクトを起こす際は参考にしたいですね。トラブルが多かったことで整備が進んでいるガイドラインだと思うので、最新版をありがたく使わせていただくことになるかなぁ、とは思います。…まぁ、果たして自分がAIプロジェクトを起こすことがあるのか?というのはありますが、AIプロジェクトに参画する場合にも、点検には使えそうですしね。さて、そろそろ7章も後半に突入です。引き続きがんばっていきましょう〜。

ではまた。

勉強に使ってる書籍はこちら↓
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版