Google Researchによると、SensorLMの性能は、人間の活動認識やヘルスケアアプリケーションを含む多様な実世界のシナリオで評価され、これらの分野における既存の主要モデルに対して明確な改善が示されました。SensorLMは、限られたラベル付きデータのある環境で特に優れた性能を発揮します。モデルのファインチューニングを必要とせずに20の異なる活動を正しく特定する強力なゼロショット分類能力を示し、最小限の例で新しいタスクに迅速に適応する効果的な少数ショット学習を示しました。また、そのクロスモーダル検索機能により、センサーデータと自然言語の相互解釈が可能になり、ユーザーはテキストを使用してセンサーパターンを検索したり、センサー入力から関連する説明を生成したりすることができます—これは専門家の分析ワークフローをサポートするアプローチです。
Googleは、センサー信号を人間中心の健康インサイトに翻訳するSensorLMを発表しました。
基礎研究と応用研究の両方に焦点を当てた部門であるGoogle Researchは、センサー言語基盤モデルの新しいファミリーであるSensorLMを発表しました。これは、高次元ウェアラブルセンサーデータの解釈を向上させるために設計されています。103,000人以上からの59.7百万時間のマルチモーダルセンサー入力で訓練されたSensorLMは、複雑なセンサー信号から詳細で人間が読み取れる説明を生成する能力を備えており、センサーデータ分析の分野で新たなベンチマークを確立しました。
SensorLMのトレーニングデータセットを開発するために、127カ国の103,643人の参加者から約250万人日の非識別化センサーデータがサンプリングされました。このデータは、2024年3月1日から5月1日までの期間にFitbitおよびPixel Watchデバイスから収集され、すべての参加者は健康と科学に関する一般的な知識を進展させることを目的とした研究において匿名データの使用に関する情報提供に同意しました。
研究者たちは、大規模データにラベルを付けるという課題に対処するために、統計を計算し、パターンを認識し、センサーからのデータを直接要約することによって、記述的キャプションを生成する自動階層パイプラインを実装しました。このアプローチにより、センサー入力と言語を整合させる現在知られている最大のデータセットが作成され、以前の研究で使用されたデータセットの規模を超えました。
SensorLMのアーキテクチャは、広く使用されているマルチモーダル事前学習手法、特にコントラスト学習と生成的事前学習を統合し調和させた統一フレームワークを取り入れています。コントラスト学習フェーズでは、モデルはセンサーデータのセグメントを、一連の選択肢から選ばれた適切なテキスト記述と関連付けて訓練されます。
このプロセスは、モデルが軽い水泳と筋力中心のワークアウトのようなさまざまな身体活動や生理的状態を正確に区別できるようにします。生成的事前トレーニングフェーズでは、モデルがセンサー入力から直接テキストの説明を生成することを学び、高次元データの複雑で文脈に敏感な解釈を伝える能力を高めます。これらのトレーニング戦略の統合により、SensorLMはセンサーデータが自然言語にマッピングされる方法に関する包括的で微妙なマルチモーダル理解を形成することができます。
実験が示すSensorLMのゼロショット分類、フューショット学習、クロスモーダル理解における高度な能力
Google Researchによると、SensorLMの性能は、人間の活動認識やヘルスケアアプリケーションを含む多様な実世界のシナリオで評価され、これらの分野における既存の主要モデルに対して明確な改善が示されました。SensorLMは、限られたラベル付きデータのある環境で特に優れた性能を発揮します。モデルのファインチューニングを必要とせずに20の異なる活動を正しく特定する強力なゼロショット分類能力を示し、最小限の例で新しいタスクに迅速に適応する効果的な少数ショット学習を示しました。また、そのクロスモーダル検索機能により、センサーデータと自然言語の相互解釈が可能になり、ユーザーはテキストを使用してセンサーパターンを検索したり、センサー入力から関連する説明を生成したりすることができます—これは専門家の分析ワークフローをサポートするアプローチです。
分類に加えて、SensorLMはウェアラブルセンサー入力のみに基づいて構造化されたコンテキストに配慮したテキスト要約を生成する能力を持っています。実験的な比較では、これらの出力は一般的に非専門的な言語モデルによって生成されたものよりも一貫性があり、正確であることが示されています。研究ではまた、SensorLMの性能がトレーニングデータ、モデルサイズ、および計算リソースの増加に伴って一貫してスケールすることが観察されており、モデルスケーリングにおける以前に確立された原則と一致しています。これらの発見は、このアプローチがその潜在能力の初期段階にあり、さらなる探求が必要であることを示唆しています。
SensorLMの開発は、自然言語を通じて複雑なウェアラブルセンサーデータを解釈するためのフレームワークを導入します。これは、新たに開発された階層的キャプショニング手法と、これまでに組み立てられた最大のセンサー-言語データセットによって可能になりました。その結果、SensorLMモデルファミリーは、個人の健康データのアクセシビリティと有用性を向上させる一歩を提供します。機械が生理的信号を言語を通じて解釈できるようにすることで、この研究はよりカスタマイズされた情報豊かな健康フィードバックの基礎を築いています。今後の取り組みでは、代謝プロファイリングや高度な睡眠モニタリングなどの分野への拡大が探求され、個別化されたウェルネスツール、臨床モニタリングシステム、自然言語インタラクションが可能なデジタルヘルスアシスタントを支援するというより広い目標となります。この研究に基づく将来の製品の開発と展開は、臨床の検証や規制の監視の対象となる可能性があります。