AI・機械学習モデル開発の6ステップ ②データ収集
- 目次
1.手掛かりとなるデータを集めよう
「データ収集」ステップでは、前のステップで定めた解決課題に関連するデータを集めます。
「解決課題に関連するデータ」というのは、「課題解決のための手掛かりとなる」と、言い換えることもできます。以下3つの例でイメージを明確にしましょう。
1つ目の例として、××コンビニの△△店における明日のソフトクリームの売上を予測する場合、今日のソフトクリームの売上、明日の予想最高気温、曜日、月、割引などのキャンペーン有無などが手掛かりになりそうです。
2つ目の例として、アルファベットで書かれた文字列が「何語」であるか判断したい場合、26種のアルファベットの出現数(率)などを使うことも考えられます。
3つ目の例として、身体的特徴から性別判定を試みる場合、身長、体重、部位別の皮下脂肪厚や筋厚などが該当するでしょう。
2.ケースによって対応も変わる
1つ目の例のように、自社で収集しているであろうデータに加え、外部環境としてコツコツ集めないといけないデータも組み入れるべきケースもあれば、2つ目の例のように、手掛かりのデータがそもそものデータから持ってくることができるケースもあります。3つ目の例のように、普段測定・収集しないようなデータを使いたいような場合は、その背景を踏まえ1から収集し始めるべきケースもあります。何が手掛かりになるのか、手元のデータの中で頭を悩ますことももちろん大事ですが、必要なデータが集まってから次のステップへ向かうという判断も重要ということですね。
参考として、売上に関するデータなどはPOSシステムや販売管理システムの活躍により、すでに集めている場合も多いので、短期間でこのステップをクリアできるケースが多いです。
また、前回も少し触れましたが、これまでは、必要だったが集められていなかったデータも、IoTの発展により、集められるようになったり、API活用やWEBスクレイピング技術も身近になってきたことにより、インターネット上の豊富なデータを活用することができるようになってきました。(勿論、スクレイピングをする際の利用規約やマナーは必ず守りましょう!)
なお、こうした手掛かりに関する勘所を一番押さえているのは、現場で実務を担当している人たちです。もしあなたが解決対象となる課題に関する業務を知らずに、闇雲に関連しそうなデータを集めている場合、黄信号です。すぐにヒアリングに行きましょう!
いかがでしたか?少しでも皆さんのAI活用の助けになっていれば嬉しいです。次回もお楽しみに!