LLMの選択：2024年版オープンソースLLM入門ガイド

2024年2月5日

2023年、AIは飛躍的な発展を遂げました。何千もの新しいAIツールが立ち上げられ、既存のアプリにAI機能が追加され、ハリウッドはこの技術に対する懸念で騒然となりました。フレディ・マーキュリーのような歌唱力を評価するAIツールまで登場していることは何ら不思議ではありません。

しかし、すべてのAIツールや機能の背後には、面倒な作業をすべて行う大規模言語モデル（LLM）があり、その多くはオープンソースです。LLMは、言語を理解して生成するために大量のデータを消費できるディープラーニングアルゴリズムです。ニューラルネットワークアーキテクチャに基づいて構築されているため、コンテンツ生成、翻訳、分類、その他多くのユースケースなど、さまざまな自然言語処理（NLP）タスクを実行するようにトレーニングできます。これは、オープンソースのLLMが利用できることと相まって、カスタマーサポートのチャットボットの開発、詐欺の検出、R&Dのようなワクチン開発の支援などの主要なビジネスタスクや、複数の業界にわたるさまざまなユースケースの自動化がはるかに簡単になります。LLMは、データの処理と分析の方法を拡大することで、クラウドのセキュリティ、検索、オブザーバビリティを向上させる上でも重要な役割を果たすことができます。

新しいテクノロジーの例に漏れず、LLMの利用にも検討と解決が必要な課題が伴います。出力の品質は、もっぱら与えられるデータの品質に左右されます。LLMの多くが大規模な公開データレポジトリでトレーニングされており、分野固有のデータでトレーニングされていない場合には、言わば幻覚のような、応答や不正確な応答を返す傾向があります。個人情報やユーザー生成コンテンツの収集、保管、保持については、プライバシーや著作権に関する懸念もあります。

LLMについてさらに詳しくは、大規模言語モデル（LLM）とは？のページをご覧ください。

オープンソースLLMとは？

オープンソースLLMとは、無料で利用でき、誰でも変更やカスタマイズが可能なLLMです。

オープンソースのLLMを利用すれば、個人や企業はライセンス料金を支払うことなく自由に活用できます。これには、LLMを自社のインフラストラクチャーにデプロイし、独自のニーズに合わせて微調整することが含まれます。

これは、クローズドソースLLMの対極にあるもので、クローズドソースLLMは個人や組織が単独で所有する独占的なモデルであり、一般には公開されていません。その最も有名な例が、OpenAIのGPTシリーズのモデルです。

次の動画を視聴して、LLMについてさらに深く学びましょう：

LLMに最適なユースケース

LLMには無限の可能性がありますが、ここではLLMで実現できるさまざまなことのうち、主なものを少しだけ紹介します。

感情分析：LLMを使用して、フィードバックやソーシャルメディアなどから収集した主観的な意見を識別したり、分類したりできます。
コンテンツの作成：記事、マーケティングコピー、製品の説明など、コンテキストに関連したコンテンツを生成できるLLMもあります。
チャットボット：LLMを細かく調整してチャットボットとして使用したり、お客様とやり取りしたりできます。
翻訳：多言語テキストデータを使用することで、LLMを活用して人間の言語を翻訳し、コミュニケーションを支援できます。
研究：LLMにより、膨大な量のデータを取り込んで処理し、関連度の高い情報を入手できるようになるため、調査が楽になります。

人気のオープンソースLLM9選（2024年版）

皆様の会社やプロジェクトに合ったオープンソースLLMを選びやすくするため、現在提供されているオープンソースLLMを、注目に値する9つのものに絞って紹介します。このリストは、活発なAIコミュニティと機械学習レポジトリであるHugging Faceの人気指標に基づいて作成しています。

1. GPT-NeoX-20B

eLeutheraiによって開発されたGPT-NeoX-20Bは、アーキテクチャをGPT-3に似せて設計された自己回帰言語モデルです。The Eyeがマネージドする800GBのオープンソースデータセットであるThe Pileのデータを含むGPT-Neoxライブラリを使用してトレーニングされています。

GPT-NeoX-20Bは主に調査のために開発された、200億個のパラメーターを使用したりカスタマイズしたりできます。

適性のあるユーザーは？
GPT-NeoX-20Bは、マーケティング会社やメディア企業など、高度なコンテンツ生成を必要とする中規模または大規模ビジネスに非常に適しています。このような企業では、熟練した人材と大規模なLLMを実行するために必要な演算能力の両方が必要となります。

適性がないユーザーは？
このLLMは、演算処理上の要件を管理するための経済的および技術的リソースを持たない小規模企業や個人には適していません。

使用の複雑さ
そのままデプロイすることが想定されていないため、具体的なタスクとニーズに合わせてGPT-NeoX-20Bをデプロイして微調整するための技術的専門知識が必要になります。

2. GPT-J-6B

同じくEleutherAIによって開発されたGPT-J-6Bは、プロンプトから人間のようなテキストを生成する生成型事前学習型トランスフォーマーモデルです。GPT-Jモデルを用いて構築されており、60億（名前の由来です）の訓練可能なパラメータを持っています。

英語のみのデータセットでトレーニングされているので、翻訳や英語以外の言語でのテキスト生成には向いていません。

適性のあるユーザーは？
使いやすくて比較的サイズが小さいGPT-J-6Bは、パフォーマンスと消費リソースのバランスを重視するスタートアップ企業や中規模企業に向いています。

適性がないユーザーは？
このLLMは、より高度なモデル性能とカスタマイズを必要とする企業には最適な選択ではないかもしれません。また、多言語サポートを必要とする企業にも適していません。

使用の複雑さ
GPT-J-6Bは、支援的なコミュニティを持つ中程度のユーザーフレンドリーなLLMで、技術的なノウハウが中程度の企業にもアクセス可能となっています。

3. Llama 2

GoogleやOpenAIの人気LLMに対抗してMetaが開発したLlama 2は、公開されているオンラインデータソースで訓練され、AI駆動の体験を作るよう設計されています。特定のタスクに最適化でき、研究や商業利用においては完全に無料です。

MetaのLlamaでの経験をベースにしたLlama 2は3つのモデルサイズ（70億、130億、700億パラメーター）で提供されており、動的かつスケーラブルな選択肢となっています。

適性のあるユーザーは？
モデルサイズのオプションがあるため、Llama 2は、広範な言語モデルを活用したい研究者や教育開発者にとって適性の高い選択肢です。また、コンシューマーグレードのコンピュータでも動作するため、ホビーユーザーにも適しています。

適性のないユーザーは？
Llama 2は、高度に専門的なタスクでの使用が想定されておらず、また、出力の信頼性に若干の懸念があるので、高リスクの用途やニッチな用途には向いていません。

使用の複雑さ
教育用途に焦点を当てた比較的使いやすいLLMですが、最適な結果を得るにはカスタマイズが必要になるでしょう。

4. BLOOM

BLOOMは、1,760億もの膨大なパラメータを持つ、デコーダー専用のトランスフォーマー言語モデルです。プロンプトからテキストを生成するように設計されており、テキスト生成、要約、埋め込み、分類、意味検索といった特定のタスクを実行するように微調整することができます。

46種類の言語のソース数百個で構成されるデータセットでトレーニングされているので、言語翻訳や多言語出力に適した選択肢でもあります。

適性のあるユーザーは？
BLOOMは、多言語サポートを必要とするグローバルなオーディエンスをターゲットとする大規模なビジネスに高い適性があります。このモデルは規模が大きいため、企業はそれを運営するために十分な利用可能なリソースを持つ必要があります。

適性がないユーザーは？
英語圏の市場のみで事業を展開する企業にとって、BLOOMの多言語機能は余計なものに感じられるかもしれません。また、特にこのような大規模なモデルでは、カスタマイズとトレーニングに膨大なリソースが必要となります。

使用の複雑さ
言語の微妙なニュアンスを理解し、異なる言語文脈での導入が必要であるため、BLOOMには中〜高レベルの複雑さが伴います。

5. Falcon

LLMのFalconはBLOOMを見てこう言いました、「ふん、たったの1,760億パラメーター？」

実際にそう言ったわけではありませんが、Falconのオープンソース言語モデルには、70億、400億、1,800億という魅力的な3つのサイズ展開があります。

Apache Licence 2.0のライセンスのもとで提供されるFalconは、プロンプトからテキストを生成するために設計された自己回帰型LLMで、高品質のRefinedWebデータセットをベースにしています。

適性のあるユーザーは？
高度なパフォーマンスとスケーラビリティを備えたFalconは、Webサイトのような多言語ソリューション、マーケティングクリエーション、投資分析、サイバーセキュリティに関心がある規模の大きな企業にとって理想的です。

適性がないユーザーは？
70億もの選択肢がある一方、シンプルなプラグアンドプレイのコンテンツ生成ソリューションを求める企業には最適とは言えません。モデルのカスタマイズや訓練コストは、これらの作業には依然として高すぎます。

使用の複雑さ
Falconは、最大モデルの巨大なサイズにもかかわらず、他のいくつかのLLMと比較して比較的使いやすくなっています。しかし、それらを最大限に活用するためには、やはり特定のタスクのニュアンスを知る必要があります。

6. CodeGen

このSalesforceのLLMは、テキスト回答やコンテンツを出力する代わりにコンピュータコードを出力する点で、このリストの他のどのLLMとも異なります。CodeGen は「コード生成（Code Generation）」の略で、まさにその役割を果たしています。既存のコードや自然言語のプロンプトに基づいてコードを出力するように訓練されています。

パラメーター数で70億、130億、340億のサイズ展開があるCodeGenは、ソフトウェア開発に対する洗練されたアプローチを創出するために誕生しました。

適性のあるユーザーは？
Code Genは、コーディングのタスクを自動化して開発者の生産性を高めることを考えているテクノロジー企業やソフトウェア開発チーム向きです。

適性のないユーザーは？
コンピューターコードを書いたり扱ったりしない企業には、このLLMは不要です。

使用の複雑さ
CodeGenは既存の開発ワークフローに統合するのが複雑で、ソフトウェアエンジニアリングに関する確かな基礎が必要です。

7. BERT

BERTは初期の現代的なLLMの一つであり、2018年にGoogleによって開発されたエンコーダ専用のトランスフォーマーアーキテクチャです。人間の言語を理解し、生成し、操作するために設計されています。

BERTは、他ならぬGoogleが検索クエリの理解度向上のために使用しており、テキスト生成、質問への回答、感情分析といった他のタスクでも活躍しています。

適性のあるユーザーは？
Googleそのものの検索で重要な役割を担っていることを考えると、BERTは、サイトやコンテンツを検索エンジン向けに最適化し、コンテンツの関連性を高めたいSEOスペシャリストやコンテンツ制作者にとって最適な選択肢です。

適性のないユーザーは？
登場してからの期間の長さに由来する冗長化が見られるBERTは、SEO以外の分野では、より大規模で新しい別の選択肢に比べて魅力的ではないと思われます。

使用の複雑さ
BERTはSEOやコンテンツ最適化に馴染みのある方にとっては比較的わかりやすいですが、Googleの最新のSEO推奨事項の変化に対応するためには微調整が必要になる場合があります。

8. T5

T5 （「Text-to-Text Transfer Transformer」の略）は、テキストからテキストへのアプローチを採用したトランスフォーマーベースのアーキテクチャです。NLP問題を、インプットと出力が常に文字列である形式に変換するので、T5は翻訳、質問への回答、分類などのさまざまなタスクに利用できます。6000万パラメーターから110億パラメーターまで、5つの異なるサイズがあります。

適性のあるユーザーは？
T5は、要約、翻訳、分類など、テキストからテキストへの変換を伴う多様なタスクのために、汎用性の高いツールを求めている企業に適しています。

適性がないユーザーは？
比較的柔軟性が高いT5ですが、テキスト以外の出力が求められるタスクには向いていません。

使用の複雑さ
T5は他のLLMと比べて一般的に使いやすいとされており、さまざまな事前学習済みモデルが利用可能です。しかし、よりニッチな、あるいは特定の業務に適応するにはある程度の専門知識が必要かもしれません。

9. Mixtral 8x7B

Mixtral 8x7Bは、疎のMixture-of-Expertsの最先端にあります。オープンウェイトとApache 2.0ライセンスを誇るMixtralは、速度と効率の面で他モデル（Llama 2やGPT-3.5など）を上回る画期的な存在です。特に多様な言語の扱いに優れており、コード生成や命令追従に優れています。

適性のあるユーザーは？
多様で複雑なタスクに最先端のAI技術を活用することに熱心な開発者や組織を対象としたMixtralは、イノベーションを目指す人々にとって確実に貴重な資産となります。

適性のないユーザーは？
機械学習が初めての方や、コンピュータの処理能力が低い方には、Mixtralは少し難しいかもしれません。

使用の複雑さ
Mixtralを利用するにはコミットメントが必要ですが、それに相当する見返りがあります。そのユニークなアーキテクチャとスケールには、NLPの概念に関するある程度の知識と、おそらく追加の構成が必要です。この導入は初心者向けではありませんが、活発なHugging Faceコミュニティと豊富なドキュメントには、始める際に役立つ貴重なリソースがあります。この長い道のりを踏破するには努力が必要ですが、高度なNLP機能を引き出す可能性には挑戦する価値がある点には一考の価値があります。

免責事項：パラメーター数とモデルのサイズは、すべて本記事の公開時における正確な情報ですが、公開後に変更される可能性があります。

ビジネスに適したLLMを選択する

使用するオープンソースLLMを決める際に検討するべき重要な基準がいくつかあります。

費用：これらのLLMはオープンソースであるため、モデル自体にお金を払う必要はありません。しかし、ホスティング、トレーニング、リソースなどの費用について考える必要があります。LLMが大きく複雑になればなるほど、費用は高くなる可能性があります。これは、大規模なLLMほど、より多くのデータストレージコスト、処理パワー、より大きなインフラストラクチャ、およびメンテナンスコストが必要になるためです。
精度：選択肢の精度を評価することは不可欠です。さまざまなLLMが、必要なタスクをどの程度正確に実行できるかを比較する必要があります。たとえば、一部のモデルはドメイン固有であり、一部のモデルは微調整やRetrieval-Augmented Generation（RAG）によって改善できます。
パフォーマンス：LLMの性能は言語の流暢さ、一貫性、文脈理解などで測定されます。LLMがこれらの点で優れていればいるほど、その性能は向上します。これによりユーザー体験とタスクの効果が向上し、競争優位性が得られます。
データセキュリティ：データのセキュリティも重要な検討事項であり、機密データやPIIデータを扱っている場合は特に重要です。文書レベルのセキュリティを使用してデータへのアクセスを制御し、特定のデータに対するセキュリティ権限を制限することができるため、これもRAGが有用な領域です。
タスク特化型か汎用型か：より具体的なユースケースを解決するLLMが必要なのか、それともより幅広いタスクをカバーするLLMが必要なのかを検討してください。一部のモデルはドメイン特化型であるため、自社のドメインに合ったものを選ぶか、より広い範囲をカバーするものを選ぶか、慎重に検討する必要があります。
トレーニングデータの質：データの質が良くなければ、結果も良くありません。各LLMが使うデータを評価し、信頼できるものを選びましょう。RAGもこの点で役立ちます。カスタムデータを使えば、準備・微調整が可能で、直接的に出力の品質を向上させます。
スキルセット：もう一つ重要な要素は、プロジェクトチーム内の既存のスキルセットです。データサイエンス、MLOps、NLPなどの経験は必須です。LLMが複雑であればあるほど、チームに必要なスキルセットもより深いものになります。もしこの点に制限があるなら、よりシンプルなLLMに集中するか、さらに専門知識を得ることを検討する価値があります。

これらの基準を使用すれば、今回紹介したLLMのうち、どれが自分の環境に最もフィットするのかを見極められるはずです。

時間を取って、掲載されているオプションを確認し、問題の解決に最も役立つ方法に基づいて評価を行うことをお勧めします。これらのオープンソースLLMはどれも非常に強力で、効果的に活用すれば革新をもたらすことができます。

次のアクション

準備ができたら、ビジネスでデータを活用するための次の4つのステップに進みましょう。

無料トライアルを開始して、Elasticがビジネスにどのように役立つのかを実感してください。
ソリューションのツアーを参考に、Elasticsearchプラットフォームの仕組みと、ソリューションがニーズにフィットする仕組みをご確認ください。
Elasticsearchクラスターのセットアップ方法を学習しましょう。 45分間のウェビナーで、データの収集とインジェストを開始する方法をご紹介します。
興味を持ってくれそうな方とこの記事を共有してください。メール、LinkedIn、X（旧Twitter）、Facebookで共有できます。

LLM関連資料の続きを読む：

本記事に記述されているあらゆる機能ないし性能のリリースおよびタイミングは、Elasticの単独裁量に委ねられます。現時点で提供されていないあらゆる機能ないし性能は、すみやかに提供されない可能性、または一切の提供が行われない可能性があります。

このブログ記事では、それぞれのオーナーが所有・運用するサードパーティの生成AIツールを使用したり、参照している可能性があります。Elasticはこれらのサードパーティのツールについていかなる権限も持たず、これらのコンテンツ、運用、使用、またはこれらのツールの使用により生じた損失や損害について、一切の責任も義務も負いません。個人情報または秘密/機密情報についてAIツールを使用する場合は、十分に注意してください。提供したあらゆるデータはAIの訓練やその他の目的に使用される可能性があります。提供した情報の安全や機密性が確保される保証はありません。生成AIツールを使用する前に、プライバシー取り扱い方針や利用条件を十分に理解しておく必要があります。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine、および関連するマークは、米国およびその他の国におけるElasticsearch N.V.の商標、ロゴ、または登録商標です。他のすべての会社名および製品名は、各所有者の商標、ロゴ、登録商標です。

コンテキストエンジニアリング

ベクトル検索

検索が支えるアプリケーション

ログ

脅威保護

ワークフロー

Elasticsearch

Kibana（Discover、ダッシュボード）

Elastic Agent Builder

AutoOps

パイプ型クエリ言語

Jina AI 検索モデル

Elastic Cloud Serverless

Elastic Cloud Hosted

セルフマネージドのElasticsearch

eコマース検索

カスタマーサポート検索

検索主導のアプリ

ログ分析

インフラ監視

デジタルエクスペリエンスの監視

アプリのパフォーマンス監視

AIOps

LLMオブザーバビリティ

次世代SIEM

セキュリティのためのワークフロー

XDRとエンドポイントセキュリティ

セキュリティのためのAI

データの価値を10倍に

クラウドプロバイダー

Elastic AIのエコシステム

AIパートナープログラムを検索

AV-Comparatives

Forrester Wave™のリーダー

Gartner Magic Quadrant™のリーダー

IDC MarketScapeリーダー

検索

セキュリティ

オブザーバビリティ

使い始める

デモギャラリー

ダウンロード

統合

ドキュメント

Elastic Search Labs

Elastic Security Labs

Elastic Observability Labs

ブログ

コミュニティー

イベント

ウェビナー

ディスカッション

トレーニングコース

サポート

コンサルティング