機械学習モデルのトーレニングデータ
- トレーニングデータ種類
- ラベル付きデータ: 各インスタンスまたは例に、目的の出力または分類を表すラベルが付いている
- ラベルなしデータ: インスタンスまたは例に関連するラベルやターゲット変数がないデータ。データは入力特徴量のみで構成。
- 構造化データ: テーブル、データベース形式で整理フォーマット化されたデータ
- 表形式データ: スプレットシート、データベース、CSVファイルに保存されたデータなど
- 時系列データ: 株価、センサー読み取り値、気象データなど、連続した時点で測定された一連のデータ
- 非構造化データ: 定義された構造や形式を持たないデータ。テキスト、画像、音声、動画など
機械学習(ML) のアルゴリズム
コンパイルされたトレーニングデータは機械学習アルゴリズムに送られます。
- 教師あり学習: ラベル付きデータでトレーニングされる。目標は新しい見たことない入力データの出力を予測できるマッピング関数を学ぶこと
- 教師なし学習: ラベル付けされてないデータからトレーニングされる。目標は入力データ内の固有のパターン、構造、または関係を発見すること
- 強化学習: 半教師あり学習では、トレーニングデータの一部のみがラベル付けされます。フィードバックは、そのアクションに対する報酬またはペナルティという形で提供され、機械はこのフィードバックから学習して、時間の経過とともに意思決定を改善
モデル
意思決定を行うプロセス = 推論
- バッチ推論: 画像やテキストなど大量のデータをまとめて分析し、一連の結果を出すこと。意思決定のスピードが重要でない場合、正確さの方が重要な場合に使われる
- リアルタイム推論: 意思決定のスピードが重要な場合に使われる。チャットボットや自動車雲梯など。