DeepSeekは、競合と同じパラメータ数でそれらを上回る性能を達成したというマルチモーダルAI「Janus-Pro」を発表した。 【画像】Janus-Proの性能評価 Janus-Proは1つの統合されたトランスフォーマーアーキテクチャで処理しながら、視覚のエンコーディングを別々の経路に分離して処理。これにより、理解と生成における視覚エンコーダの役割の競合を軽減し、フレームワークの柔軟性を引き上げ、従来の手法の限界を打破したという。 Janus-Proは、DeepSeek-LLM-1.5b-baseおよびDeepSeek-LLM-7b-baseに基づいて構築される。理解には384×384の画像入力に対応したSigLIP-Lを視覚エンコーダとして用いているほか、画像生成にはダウンサンプルレート16のLlamaGenによるトークナイザを採用している。
PC Watch,劉 尭
*******
****************************************************************************
*******
****************************************************************************