Vectorspace AIのデータセットとElasticsearchでアルファ値を可視化する | Elastic Blog
ユーザストーリー

Vectorspace AIのデータセットとCanvasでアルファ値を生成、可視化する

要旨

Vectorspaceのデータセットには、KibanaのCanvasをはじめとするElastic Stackのツールが活用されています。情報の可視化とデータの価値を引き出すこの取り組みの成果をご紹介します。

背景

2002年、Vectorspace社は米国のローレンス・バークレー国立研究所で自然言語理解(NLU)に基づく特徴ベクトルを開発しました。現在、特徴ベクトルはテキスト埋め込みとしても知られています。特徴ベクトルはかつて、相関マトリックスデータセットを生成する目的で使用されていました。高齢化と乳がん、および宇宙放射線によるDNAの損傷修復に関連して、遺伝子間の目に見えない関係性を分析するためです。

データソースとなった資料には、ラボでの実験結果やアメリカ国立医学図書館に収蔵されている科学文献、オントロジー、統制語彙、各種百科事典、辞書類、ゲノム研究データセットがありました。

このチームは、星の分類に使うベイジアン分類のAutoClassも実装し、これを遺伝子発現値を含むデータセットに基づいて遺伝子のグループを分類する目的で使用しました。そしてテキスト埋め込みとトピックモデリングでデータセットを強化するとき、ロスが最小化され、最も有用な結果が得られました。当時の目的は、生物医学研究者がin silico、つまりコンピューターで、なんらかの発見を行う前に修正する可能性のある概念のつながりを模倣することでした。この作業の一部は、線形動物の長寿化に関して、遺伝子間の目に見えない関係性を説明する論文として発表されています。2005年、アメリカ海軍宇宙海戦システム司令部が参入し、より多くのリソースを投じて金融市場をはじめとする領域に研究を拡大しました。

データセットを改造する

やがてVectorspaceは、強化したり、テキスト埋め込みで表象された特徴ベクトルを組み合わせたりしてデータセットを“改造”する手法を習得しました。この結果、新しい可視化や解釈、仮説、発見が生まれることとなりました。このような種類の特徴ベクトルを使って金融市場向けに時系列データセットを強化すれば、ユニークなシグナル、つまりアルファ値を生成することができるかもしれません。この試みは、下図に示すように、選択されたコンテクスト、またはトピックに最適化されたデータソースから出発します。

データソースの選択

ソース選択で作成されたデータセット

この結果得られるデータセットは特徴ベクトル群で構成されます。特徴ベクトルは、生物医学文献と、ニューヨーク証券取引所とナスダックの上場企業に関する自然言語に基づくテキスト埋め込みです。学際的なアプローチで研究すれば、相互作用するとき、遺伝子と株式に類似の属性や挙動があるかどうか判断することができるかもしれません。

2部構成で目的を定める

パート1:遺伝子、タンパク質、医薬品、疾病に観測される相互作用についての知識を、株式分野のどこで適用するか判断する。

パート2:強化されたデータセットを使用して金融市場におけるアルファ値を生成し、人類による長期間の宇宙飛行を安全にする取り組みに関する研究への資金調達手段の開発方法を模索する。

上昇イベントのトリガー

遺伝子間に観測された相互作用は、株式間に観測される相互作用と類似していたでしょうか?2004年の9月20日、この問いに部分的な回答を提供する出来事が発生しました。Merck(MRK)の株価は、同社の医薬品Vioxxが心臓発作を起こす可能性があることを理由に、21%(推定値)下落しました。これが他の上場製薬企業の株価に潜在的不安を引き起こすこととなりました。特に影響を受けたのがファイザー社(PFE)です。Vectorspaceが生成したデータセット強化は、Merckが製造する医薬品Vioxxとの結びつきに基づいて、PFEの株価に遅れて生じた反応を予測しました。さらに詳しい情報があります。

さらなる調査で、2001年2月発行のThe Journal of Finance誌に掲載された興味深い論文が見つかりました。タイトルは“Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar”(拙訳:伝染性のスペキュレーションとガン治療:株価を高騰させた取るに足らない出来事)です。この論文は、EntreMed(当時のシンボルはENMD)という企業に関する出来事を記述しています。

「(拙訳:)日曜のニューヨーク・タイムズに新たながん治療薬の開発の可能性を示す記事が掲載され、金曜の終値が12.063だったEntreMedの株価は月曜の始値が85、同日の終値が52近い価格となった。それから3週間、EntreMedの終値は30を上回り、この熱狂は他のバイオテクノロジー株にも波及した。突破口となる可能性のあるがん研究の成果についてはすでにこれまでも報じられており、ネイチャー誌、およびタイムズ紙を含む他の大手新聞社では5か月以上早かった。したがって、世間の熱狂的な注目が株価の永続的な上昇を生じさせている。実質的に新しい情報は何もないにもかかわらず、である。」 多くの研究者がインサイトに満ちた観測を行っていますが、同記事の結論として提示されている内容は注目に値します。(拙訳:)「(価格)変動は、共通事項が株価に凝縮している可能性があり、しかし、このような共通事項は、経済的原理であるとは限らない」 — (Huberman and Regev 387

Vectorspaceは定量アルゴリズム開発、投資銀行業務、公営企業運営に関連する各分野に経験を持つ人材でチームを作成し、遺伝子と株式の類似性の観測を開始しました。遺伝子と同様に、株式にも“発現値”と属性、そして、目に見えない相互の関係性と、外部のイベント・トピック・グローバルなトレンドとの目に見えない関係性があります。このような関係性とは“知識”の一形式であり、他の何よりも自然言語に埋め込まれる傾向があります。遺伝子のように、株式のクラスターも相互に作用し、同調して変動する可能性があります。このデータは、“見えないもつれ”に基づいて、株式間の将来の価格相関性を予測するために使用できる可能性があります。株価のクラスターは、相互の、そして外部の出来事との間に生じる、既知の見えない関係性を共有する“バスケット”の役割も果たします。クラスター、あるいはバスケットは、コンテクストで制御できる可能性があります。

満ち潮でも上昇しないボートがある

Vectorspaceが観測される相関性を引き起こす原因を分析に着手したのは、それが“採掘可能な情報ポケット”に基づいて金融市場の無能さを活用した資金調達手段を作成する機会だとわかったからです。チームは株式間の遅延反応の観測を開始しました。この反応は、外部の海で潮が満ちてから数分、あるいは数時間後に港や入り江の潮が満ち、水面のボートが高く上がる現象と似ています。ある出来事(イベント)によって港の水位が上昇し、次に港のボートも上昇します。このケースでボートは、株式と同様に「トレード可能なアセットのクラスター」と見なすことができます。金融市場では、一部のボートは高く上がりますが、別のボートはそうなりません。どのアセットがイベントに関連しているかに加え、関連性の高さや関連性のコンテクストも予測することができれば、貴重なシグナルとなります。たとえば市場に先駆けて取引する、あるいは資本を展開する際に、長期や短期のリスクを軽減するといった使い方ができる非対称の情報のようなものです。これは、可視化と、解釈が可能な“アルファ値の生成”としても知られています。

この確率的ボート上昇仮説をテストするため、チームは20年分のデータを分析して、公開取引される株価間に、市場の出来事に基づいて生じる共感的な動き、あるいは“見えないもつれ”のパターンを探しました。そして、1998年のEntreMed(ENMD)、2004年のMerck(MRK)、2019年のCelgene(CELG)の3つのイベントを筆頭に、多数のパターンが発見されました。

イベント1:EntreMed(ENMD)が608%を記録(1998年5月4日)

EntreMedは金曜日の市場取引終了後に、ある種のがんに対する治療薬を開発したというリリースを出しました。同社の金曜日の株価は12ドルでしたが、月曜の始値は85ドルでした。これに同調して、がん治療に関わるタンパク質化学関連の自然言語に基づき、ENMDと相関性のある主要株価(バスケット内の株価)も上昇しました。

この出来事を説明している論文には、いくつかこれに関連する記述があります。

pg. 392 par. 4「(拙訳:)このうち3銘柄の株式リターンは100%超、2銘柄は50%から100%、2銘柄は25%から50%のリターンだった。表1に示した極端なリターン分散状況におけるこの3銘柄のリターン比較からは、これら7つのバイオテクノロジー関連株のリターンがどれほど以上であったか、とりわけ、このクラスタリングが前代未聞のものであったことがわかる。」

pg. 395 par. 1「(拙訳:)がん研究における画期的発見が、その開発を商業化する権利を直に持つ企業の株価だけでなく、他の株価にも影響したことは驚くに値しない。市場は潜在的な波及効果を認識し、他社もこのイノベーションの利益を得ると推量した可能性があるからだ。」

pg. 396 par. 3「(拙訳:)(価格)変動は、共通事項が株価に凝縮している可能性があり、しかし、このような共通事項は、経済的原理であるとは限らない」

イベント2:Merck(MRK)が25.8%下落(2004年9月30日)

Merckは心臓発作と脳卒中を引き起こすとして25億ドルの市場を持つ同社のCOX-2阻害薬製品、Vioxxの市場撤収を開始しました。この相関性には十分な根拠がありました。MRKの前日の終値は45.07ドル、9月30日の始値は33.40ドルになりました。特徴ベクトルとして使用できるテキスト埋め込みを使った実験で、類似の特徴ベクトルに基づき、Merckに最も関連する企業はファイザー(PFE)であることが判明しました。両社は当時、COX-2阻害薬ベースの類似調剤を手掛けていたからです。数週間後、PFEの株価は目に見えて下落しました。

「(拙訳:)2004年12月17日、ファイザー社とアメリカ国立がん研究所は結腸ポリープ予防への適用を調査する継続中の臨床治験で、心血管イベントリスクの増大を理由としてCelebrex(セレコキシブ)の投与を停止したと発表した。Merckが販売する別のCOX-2阻害薬、ロフェコキシブは心筋梗塞と脳卒中のリスクを高めることを理由に2004年、世界中の市場から回収された。」(出典:Canadian Medical Association Journal

前日終値が28.98ドルだったPFEは24%下落し、この日21.99ドルの安値を記録しました。

イベント3:Celgene(CELG)が31.8%上昇(2019年1月3日)

2019年1月3日、ブリストル・マイヤーズ スクイブ社(BMYセルジーン(CELG)を740億ドルで買収しました。CELGの株価は1晩で66.64ドルから87.86ドルに、つまり31.8%上昇しました。4日間にわたり、CELGに関連する主要株式は、これらの企業に関する自然言語から発見された関係性に基づき、20%のリターンを生みました。このようなエンティティ間の結びつきを実現したデータソースには、上場企業プロフィールのレポジトリや、公開されている査読済みの科学文献が含まれます。

このプロセスをVectorspaceが分析したところ、一部の自然言語理解が、株式間および、株式-イベント間に、価格ベースの見えない相関性を引き起こしていることが判明しました。チームは上述のような、市場に先駆けて取引する、あるいは情報のアービトラージを営むために使用できる多数の事例を観測しました。

アルファ値を可視化する

現在のVectorspace AIのデータセットは、生命科学、または金融市場の株式間における、遺伝子、タンパク質、微生物、医薬品、疾病の相互作用の隠れた関係性のネットワークを検知するために設計されています。多くの場合、顧客は社内の既存のデータセットを強化する目的でこれらのデータセットを使用します。このデータセットは特徴ベクトルを組み合わせて生成されています。特徴ベクトルは、単語やオブジェクトのベクトル化に基づき、スコア付けされた属性で構成されます。データセットはユーティリティトークンクレジットを使用するAPIを介して限りなくリアルタイムに近くアップデートされ、またアクセスすることができます。

VectorspaceはElastic StackとCanvasを活用して、顧客にほぼリアルタイムにデータの可視化と解釈を提供しています。これらはホワイトラベル(リブランド可能な形態)で提供され、顧客はビューを自在に編集できます。それがプロセス全体にとって重要であるのは、新しい解釈やインサイトが新しい仮説やシグナル、発見につながるためです。

資産管理を行う企業や組織の場合、プライバシーのためにオンプレミスのデータエンジニアリングパイプラインソリューションを求めることが一般的です。Vectorspaceでは、Elastic Cloud Enterpriseを使ってデータエンジニアリングパイプラインをパッケージ化することにより、シグナル生成のためのターンキーソリューションの提供を実現しています。

Vectorspaceを利用する金融市場の顧客は、信号対雑音比の最適化やアルファ値生成、損失関数の最小化、シャープレシオやソルチノレシオの最大化を目指しています。そのためには、ほぼリアルタイムなデータセット強化に基づく戦略のバックテストの結果を可視化・解釈すると同時に、バックテストの過剰適合を制限する必要があります。

データセットの更新頻度は、基盤となるデータソースの変動性によって、1分から1か月までの幅があります。リクエストの多い人気のデータセットパッケージは、列に上場製薬会社が入り、自然言語理解ベースの相関スコアを持つ調剤の特徴ベクトルで強化した時系列の価格データセットで構成されています。運用コンテクストの選択は、決定的なものとなる可能性があります。コンテクストが定義を変えるのと同様に、適切なコンテクスト上の制約を追加することで、時間経過と共に相関スコアの値の変化をガイドできる可能性があります。コンテクストはまた、エンティティ間の、および、エンティティとイベント間の関連性の強さを制御する可能性があります。

Canvasによる可視化

もう少し詳しく見てみましょう。このようなデータセットから1つ使い、セルジーン社(CELG)に関連する主要株(バスケット内の株)を、これらの株式の一部に遅れて上昇をもたらした出来事(イベント)に沿って生成、および可視化します。この例は、ほぼリアルタイムの結果とバックテストの結果をCanvasで解釈すると同時に、Vectorspaceの顧客が典型的にデータセットを使って実行する手順の解説になります。はじめに、バスケットグループ全体の最終損益を見て、セルジーンのバスケットがチェリーピッキング(有利な事例の選択的抽出)ではないことを確認しておきましょう。

以下は、異なるパラメーターを設定し、ロングオンリーバスケットを使用した2つの個別のバックテストです。それぞれに1万ドルのキャピタルが割り当てられ、ソルチノレシオで順位付けされています。

1万ドルに対するリターン

各バスケットのパラメーター設定は次の通りです。

各バスケットのパラメーター

下のように、バックテストの結果はKibanaに読み込まれ、統計が表示されます。

Data Visualizerに表示されたバックテストの結果

フィールド別のバックテスト結果

このバックテストの生の結果の1つをこちらでご覧いただくことができます。強化された自然言語理解データセットのバックテストは、下記の手順を使って実行できます。私たちは、上の結果を生成するために3つの手順を実行しました。

  1. データセットAPIを使用し、ニューヨーク取引証券所とナスダックのすべての株式について特徴ベクトルとして使えるテキスト埋め込みを生成する。
  2. 2018年5月1日から2019年5月1日までの期間、ニューヨーク取引証券所とナスダックのすべての株式の価格の1年分の履歴データを使用し、株価のスパイクで定義する特別なイベントトリガーをスキャンする。
  3. 指定したパーセンテージのしきい値(例:+15%)を上回るスパイクが生じた株に対し、このデータセットを使用してクラスター、あるいは関連株バスケットが生成される。上の表のMIN_UPSIDEパラメーターを参照。
  4. ボリューム、時価総額、フロートといったパラメーターを絞り込み、それを使ってバスケットを洗練させる。
  5. トレードのエントリーとエグジットの期間は4日間に設定する。
  6. リターンの計算は、ロングとショートのバスケットについて行うとともに、ソルチノレシオに加え、S&P 500でベースラインを比較して行う。
  7. データセットとリターンはCanvasで監視、可視化、解釈される。

リターンをバックテストする

2018年5月1日から2019年5月1日までの1年分実施した、3つのバックテストの全体的な結果をこの期間に生成されたすべてのバスケットのパフォーマンスに基づいて、Canvasで見てみましょう。

バックテストでは、セルジーン買収後に上場企業の株式相場が上昇したことが検知されました。強化されたデータセットは、相関性が観測される場合に読み込まれます。このデータセットから生成されたバスケット(クラスター)は、パフォーマンスに基づいて表示することも可能です。あるバスケットをS&P 500のベースラインパフォーマンスと比較して、少なくとも“相場よりはるかに上手くいった”かどうか確認することができます。個々のバスケットを監視し、S&P 500(SPY)のパフォーマンスを上回っているか判断しています。

パフォーマンスが上位5位のバスケット

下のグラフは、あるイベントと、その結果他の株価に生じた見えない同調の動きの監視内容を表示しています。このケースではCELG(セルジーン社)がイベントであり、EPZM(エピザイム社が)結果的にバスケット構成要素として選出されています。自然言語理解ベースの相関性は、価格ベースの相関性を予測することが可能です。株価とイベント間の自然言語ベースの相関性のアップデートをとらえることは、非対称の情報アービトラージにおいて有利になります。市場に先駆けて取引できるのは、ここで観測されたように、価格の変動に遅れた反応がある、あるいはCELGとEPZMの間の自然言語理解ベースの相関性と対照的な価格相関性がある場合のみです。

セルジーン対エピザイムのパフォーマンス比較

CELG(セルジーン)対AGIO(アギオス・ファーマシューティカルズ):

セルジーン対アギオス・ファーマシューティカルズのパフォーマンス比較

ソルチノレシオはリスク調整済みリターンを測定するために計算されます。以下の例では、上方変動率をよりしっかり組み込むためにシャープレシオではなく、ソルチノレシオを採用しています。ソルチノレシオは時間と共に変化します。下に示されているように、バックテストは、ロングバスケットを用いて、3つの異なるタイミングで24時間実施されました。変化するグローバルなパラメーター設定を用いて、合計286のバックテストが実行されました。以下のクラスター内の各ポイントは1つのバックテストを表し、y軸に対応するソルチノレシオの値があります。

286件のバックテストのソルチノレシオ

変化する相関性をレバレッジする

アメリカ国立医学図書館(NLM)は、24時間ごとにおよそ1,500本の査読済み科学誌を公開しています。Vectorspaceは、NLMもデータソースの1つとして使用しています。

NLMの相関性のアニメ表示

遺伝子と医薬品、医療関連ニュース、上場企業間の相関性は時間と共に、ときには数秒ほどで変化しています。このことが、既存薬再開発の候補となる化合物が発見されるとき、信号対雑音比に影響を与える可能性があります。

株式が公開取引されている製薬会社と遺伝子、タンパク質、医薬品、微生物、疾病の間の相関値に変化があれば、その新しい関係性はデータセットに反映され、ほぼリアルタイムにCanvasで監視されます。

セルジーンに対する自然言語理解の相関性

自然言語理解に基づくデータセットの作成にコンテクスト制御を使用すれば、新たな種類の相関性スコアリングを生み出すことができます。新たなインサイトを獲得する上で、自然言語理解関係性のコンテクストを制御することが極めて重要となる可能性があります

コンテクスト制御を追加することにより、自然言語理解に基づくデータセットは、「最新の研究におけるDNA損傷修復遺伝子という文脈で、これらの医薬品にどの製薬会社の株が関連しているか」といった問いに回答しようとする研究者を支援することができ、同時にCanvasでその答えや結果を可視化、および解釈するパワフルな手法となります。

ニュースや他の公的文書と共に、24時間ごとに約1,500本の査読済み科学論文が公開され、相関性スコアは変化し続けています。そして今度は、その相関性スコアがたとえば上場製薬会社と医薬品との新しい関係性を定義します。自然言語理解に基づくデータセットは、自社データソースと組み合わせることで、ユニークなシグナルを提供できる可能性があります。

まとめ

自然言語処理(NLP)と自然言語理解(NLU)に基づく相関性は、新たなインサイトや仮説、発見を生む道となる可能性があります。

生命科学と金融市場においては、自然言語理解データセットを用いて、コンテクスト化された相関性、代替データソース、特徴ベクトル、可視化、解釈に関してできることはもっとたくさんあります。私たちVectorspaceのチームは近い将来こうした可能性について、たとえば「取引可能なさまざまなアセットの時系列データセット強化」といったトピックなどを話し合うことになるでしょう。私たちのチームは、個別の自然言語理解特徴ベクトルを用いて、グラフベースの関係性ネットワークを構築する方法や、CanvasとElastic Stackの他のツールでクラスターのネットワーク全体を描写する方法を明らかにするかもしれません。さらに、マシンと特徴ベクトルを相互にトランザクションさせて、公開市場のオーダーブックとユーティリティートークAPIの組み合わせに基づき、指定した損失関数を最小化する方法を解説するかもしれません。

Vectorspaceは人類の宇宙飛行に関して、LET放射線(宇宙放射線)とエピジェネティクス、寿命に結び付く染色体損傷修復の分析に使うデータセット向けに、関連アプリの開発を続けています。こうしたすべての取り組みは、Canvasや他のツールをはじめとするElastic Stackのおかげでよりクリエイティブかつ、有用なものとなりました。データセットの強化に関する詳しい情報や、ユーティリティトークンAPIクレジットを無料で入手する方法については、Vectorspaceにお問い合わせください。立ち上げに必要なデータを積極的に提供しています。

Elastic Stackの試用をご希望の場合は、Elasticsearch Serviceの14日間無料トライアルにご登録いただくか、デフォルトの配布パッケージをダウンロードしてご利用ください。


Vectorspaceは人間の認知再現を通じた、再現情報アービトラージや科学的発見(高次のAI/NLP/ML)に取り組んでいます。ジェネンテック、ローレンス・バークレー国立研究所、米国エネルギー省、NASA宇宙生物科学部門、アメリカ国防高等研究計画局、アメリカ海軍宇宙海戦システム司令部ほか、多数の顧客を抱えています。

ショーン・マクガフはElasticのプロダクトマネージャーを務め、データ可視化と代替投資を専門領域としています。