最近、「ChatGPT」や「大規模言語モデル」という言葉を耳にする機会が増えましたよね。なかでも高度な“推論力”を備えたモデルが注目を集めています。たとえば「o1」や「Gemini 2.0」などは、複雑な数式問題を解いたり、コードを自動生成したりできると話題になりました。しかし、その中身がブラックボックスだったり、モデルの重み(学習済みのパラメータ)が公開されていなかったりと、オープンソースコミュニティには高いハードルがあったのです。
そんな状況の中、カリフォルニア大学バークレー校のNovaSkyチームが開発した「Sky-T1-32B-Preview」が登場しました。これまで非公開モデルでしか実現できないと思われてきた高度な推論能力を、なんと450ドル程度という比較的低いコストで“再現”できる道を示してくれたのです。今回は、この「Sky-T1-32B-Preview」がどんなモデルなのか、どうやって手頃なコストを実現したのかなど、3つの視点からご紹介していきます。
完全オープンソースの魅力:広がるコミュニティの可能性
最初のポイントは、Sky-T1-32B-Previewが「フルオープンソース」であること。推論モデルの分野では依然としてクローズドな研究開発が多いのですが、NovaSkyチームはデータセットからコード、モデルの重みまですべて公開しています。これによって研究者や開発者は内部の仕組みを細かく検証できるうえ、自分たちのユースケースに合わせた改良や新しいアイデアの実装がしやすくなるのです。
具体的には、以下のような形でリソースが提供されています。
今までは「どうやって高度な推論が可能になっているのか?」が謎めいていた分野ですが、Sky-T1-32B-Previewによって誰でも“中身”を覗いて改良できる時代が来たといっても過言ではありません。これは学術研究やオープンソースのコミュニティにとって大きな恩恵でしょう。
データセットとトレーニング:小さな工夫が大きな成果に
次のポイントは「たった450ドルでトレーニングできた秘密」です。大規模モデルの学習といえば、何千・何万ドルといった莫大なコストがかかるイメージがありますよね。ところがSky-T1-32B-Previewでは、わずか19時間、8枚のH100 GPUを使い、DeepSpeed Zero-3という効率的な分散学習技術を利用することで、総額450ドルほど(Lambda Cloudでの換算)で仕上げたといいます。
これを可能にしたのは、データセットの工夫も大きいようです。ベースとなるモデルに「Qwen2.5-32B-Instruct」というオープンソースの大規模言語モデルを採用し、「QwQ-32B-Preview」という推論力をもつモデルから得た解答プロセス(Chain-of-Thought)をうまく再利用しています。
さらに特徴的なのは、拒否サンプリング(Rejection Sampling)という手法を使っている点。たとえば数学問題なら正解と一致しない解答例は捨て、コーディング問題ならユニットテストを実行して不正解なコードを弾く、というふうに常に厳選した“質の高い”データだけを使っています。そのおかげで余計なノイズが少なく、少ない学習ステップでも精度を高めることに成功したのだとか。
性能評価とこれからの展望:数学とコーディングの両立
そしていちばん気になるのが「本当にうまく動くの?」というところですよね。モデルの性能を見てみると、数学系の指標としてはAIME2024(競技数学の一種)で約43.3%の正答率を達成し、o1-preview(約40.0%)とほぼ互角。コーディング系の指標では、LiveCodeBench-Hardで17.9%と決して高くはないものの、同じくo1-previewが16.3%という結果なので、十分に競合できるレベルといえます。
ただし、同じモデルで数学もコーディングもこなせるように学習させた場合、片方の性能が落ちたりする“トレードオフ”が観察されたそうです。これはタスクごとに必要な推論スタイルが微妙に違うため。そこで開発チームは高度な数式問題から複雑なコーディングタスクまでバランスよく取り入れ、最終的には両分野でそこそこ高い性能を出すところに落ち着きました。
今後はより軽量で効率の良いモデルを作ることや、推論力をさらに高める技術を追求していくとのこと。特に大規模な学習を必要としない工夫や、テスト時(推論時)にも効率を上げるテクニックを盛り込み、さらに使いやすいモデルへ進化させたいという展望が示されています。
まとめ
オープンソースの精神を貫きつつ、限られたコストで高い推論性能を実現したSky-T1-32B-Previewは、ある意味で「DIY精神のかたまり」のようにも映ります。以前であれば、こうした最先端の大規模言語モデルは、莫大なリソースをもつ企業や研究機関しか触れられない領域でした。ところが、いまや450ドルほどで同等レベルの推論能力を持つモデルを再現できる道が開かれています。
もちろん、まだまだ改善の余地はあるのでしょう。しかし、オープンソースコミュニティが結集すれば、もっと多様なアイデアや改良案が生まれて、一気にモデルが進化する可能性を秘めています。これを機に、数学、コーディング、さらには他の応用分野でも、開発や研究がますます活発になっていくのではないでしょうか。
“開かれた”高度推論モデルという大きな一歩を踏み出したSky-T1-32B-Preview。この一歩が、誰もが自由に試し、学び、そして創造できる次の時代を切り開いていくかもしれません。
出典:https://novasky-ai.github.io/posts/sky-t1/ , 2025年1月29日
このサイトでは、AI技術を活用した情報収集・要約及び解説、執筆をもとに、編集チームが編集を行っています。AIによるデータ処理と生成、人間の視点を組み合わせ、わかりやすく役立つ情報をお届けすることに努めてまいります。※AIによる生成コンテンツには誤りが含まれる可能性があるため、情報の正確性を確保するために最善を尽くします。
このサイトでは、AI技術を活用した情報収集・要約及び解説、執筆をもとに、編集チームが編集を行っています。AIによるデータ処理と生成、人間の視点を組み合わせ、わかりやすく役立つ情報をお届けすることに努めてまいります。※AIによる生成コンテンツには誤りが含まれる可能性があるため、情報の正確性を確保するために最善を尽くします。