わずか450ドルで最先端の推論モデルを手に入れる?|オープンソース時代の新星「Sky-T1-32B-Preview」

わずか450ドルで最先端の推論モデルを手に入れる?|オープンソース時代の新星「Sky-T1-32B-Preview」
2025年1月29日

ニュースレター

最新情報をいち早くお届け

最近、「ChatGPT」や「大規模言語モデル」という言葉を耳にする機会が増えましたよね。なかでも高度な“推論力”を備えたモデルが注目を集めています。たとえば「o1」や「Gemini 2.0」などは、複雑な数式問題を解いたり、コードを自動生成したりできると話題になりました。しかし、その中身がブラックボックスだったり、モデルの重み(学習済みのパラメータ)が公開されていなかったりと、オープンソースコミュニティには高いハードルがあったのです。

そんな状況の中、カリフォルニア大学バークレー校のNovaSkyチームが開発した「Sky-T1-32B-Preview」が登場しました。これまで非公開モデルでしか実現できないと思われてきた高度な推論能力を、なんと450ドル程度という比較的低いコストで“再現”できる道を示してくれたのです。今回は、この「Sky-T1-32B-Preview」がどんなモデルなのか、どうやって手頃なコストを実現したのかなど、3つの視点からご紹介していきます。

完全オープンソースの魅力:広がるコミュニティの可能性

最初のポイントは、Sky-T1-32B-Previewが「フルオープンソース」であること。推論モデルの分野では依然としてクローズドな研究開発が多いのですが、NovaSkyチームはデータセットからコード、モデルの重みまですべて公開しています。これによって研究者や開発者は内部の仕組みを細かく検証できるうえ、自分たちのユースケースに合わせた改良や新しいアイデアの実装がしやすくなるのです。

具体的には、以下のような形でリソースが提供されています。

今までは「どうやって高度な推論が可能になっているのか?」が謎めいていた分野ですが、Sky-T1-32B-Previewによって誰でも“中身”を覗いて改良できる時代が来たといっても過言ではありません。これは学術研究やオープンソースのコミュニティにとって大きな恩恵でしょう。

データセットとトレーニング:小さな工夫が大きな成果に

次のポイントは「たった450ドルでトレーニングできた秘密」です。大規模モデルの学習といえば、何千・何万ドルといった莫大なコストがかかるイメージがありますよね。ところがSky-T1-32B-Previewでは、わずか19時間、8枚のH100 GPUを使い、DeepSpeed Zero-3という効率的な分散学習技術を利用することで、総額450ドルほど(Lambda Cloudでの換算)で仕上げたといいます。

これを可能にしたのは、データセットの工夫も大きいようです。ベースとなるモデルに「Qwen2.5-32B-Instruct」というオープンソースの大規模言語モデルを採用し、「QwQ-32B-Preview」という推論力をもつモデルから得た解答プロセス(Chain-of-Thought)をうまく再利用しています。

さらに特徴的なのは、拒否サンプリング(Rejection Sampling)という手法を使っている点。たとえば数学問題なら正解と一致しない解答例は捨て、コーディング問題ならユニットテストを実行して不正解なコードを弾く、というふうに常に厳選した“質の高い”データだけを使っています。そのおかげで余計なノイズが少なく、少ない学習ステップでも精度を高めることに成功したのだとか。

性能評価とこれからの展望:数学とコーディングの両立

そしていちばん気になるのが「本当にうまく動くの?」というところですよね。モデルの性能を見てみると、数学系の指標としてはAIME2024(競技数学の一種)で約43.3%の正答率を達成し、o1-preview(約40.0%)とほぼ互角。コーディング系の指標では、LiveCodeBench-Hardで17.9%と決して高くはないものの、同じくo1-previewが16.3%という結果なので、十分に競合できるレベルといえます。

ただし、同じモデルで数学もコーディングもこなせるように学習させた場合、片方の性能が落ちたりする“トレードオフ”が観察されたそうです。これはタスクごとに必要な推論スタイルが微妙に違うため。そこで開発チームは高度な数式問題から複雑なコーディングタスクまでバランスよく取り入れ、最終的には両分野でそこそこ高い性能を出すところに落ち着きました。

今後はより軽量で効率の良いモデルを作ることや、推論力をさらに高める技術を追求していくとのこと。特に大規模な学習を必要としない工夫や、テスト時(推論時)にも効率を上げるテクニックを盛り込み、さらに使いやすいモデルへ進化させたいという展望が示されています。

まとめ

オープンソースの精神を貫きつつ、限られたコストで高い推論性能を実現したSky-T1-32B-Previewは、ある意味で「DIY精神のかたまり」のようにも映ります。以前であれば、こうした最先端の大規模言語モデルは、莫大なリソースをもつ企業や研究機関しか触れられない領域でした。ところが、いまや450ドルほどで同等レベルの推論能力を持つモデルを再現できる道が開かれています。

もちろん、まだまだ改善の余地はあるのでしょう。しかし、オープンソースコミュニティが結集すれば、もっと多様なアイデアや改良案が生まれて、一気にモデルが進化する可能性を秘めています。これを機に、数学、コーディング、さらには他の応用分野でも、開発や研究がますます活発になっていくのではないでしょうか。

“開かれた”高度推論モデルという大きな一歩を踏み出したSky-T1-32B-Preview。この一歩が、誰もが自由に試し、学び、そして創造できる次の時代を切り開いていくかもしれません。

出典:https://novasky-ai.github.io/posts/sky-t1/ , 2025年1月29日

芝先 恵介

芝先 恵介

メンター|生成AIスペシャリスト

外資系業務ソフト会社を経て2002年に起業、代表に就任。2013年に会社を売却し、翌年からスタートアップや大企業の新規事業立ち上げ支援に尽力。大学や公的機関での非常勤講師、DXアドバイザー、中小企業アドバイザーとしても活躍中。現在は、(株)01STARTを設立し、新規事業開発や営業DXのコンサルティング、生成AIに関するセミナーに数多く登壇。

カテゴリー