大規模言語モデルのベンチマーク、CPU/GPU推論検証、最適化リサーチ。
Qwen3.5-122B-A10B ローカル推論による Django 5 旅行予約サイト生成テスト
クラウドAPIを使わず、Qwen3.5-122B-A10B (Q5_K_M) のローカル推論だけでDjango 5フルスタックWebアプリをMCPエージェント経由で生成させた検証記録
なぜEPYC 9175Fの512MB L3キャッシュはMoE推論に効くのか:1Tモデル実測による仮説検証
AMD EPYC 9175FでKimi-K2.5(1T級MoE)をCPUオンリー実行し、「巨大L3キャッシュがMoE推論を加速する」という仮説を実測データで検証した記録。当初仮説の棄却から修正版への過 …
なぜHermes-4.3-36Bの量子化選択で運用が変わるのか:BF16/FP8/nvfp4の実測比較
Hermes-4.3-36BをBlackwell GPU上でBF16・FP8・nvfp4の3パターンで比較検証。nvfp4はBF16比2倍の速度だが、品質と速度のトレードオフは用途で切り替えるべきとい …
40B Denseモデルの現実:IQuest-Coder-V1-40BをCPU/GPU/Aiderで回して分かったこと
IQuest-Coder-V1-40B-Instruct(Dense 40B)をCPU Q5_K_M、GPU nvfp4、Aider whole-editの3構成で検証。CPU推論は構造的に破綻 …
MiniMax-2.5 229B MoEをIQ5K量子化でBlackwell GPU上で実行:生成速度35 tok/s・長コンテキスト65kの検証結果
MiniMax-2.5 229B MoEをIQ5K量子化で、NVIDIA RTX PRO 6000 Blackwell上で実行。Prompt評価時の速度ブレ(125-314 tok/s)、生成時の安定 …
MiniMax-2.5 (229B MoE) Expert Offload 運用と Web 生成検証:IQ5_K から IQ3_S まで
229B級MoEモデル MiniMax-2.5 を EPYC 9175F + RTX PRO 6000 環境で動かした全記録。IQ5_K/IQ4_NL/IQ3_S の3段階の量子化で Expert …
Qwen3.5-397B IQ4_NL実測:28回のランで平均22.5tok/s、ハイブリッドオフロード構成と400B級MoEの常用可能性
Qwen3.5-397B-A17B(397B総パラメータ/17B活性MoE)をIQ4_NL量子化でEPYC 9175F + GPU環境にハイブリッドデプロイ。28回の連続推論で平均TG …
Llama-4-Scout-17B-16E実測:CPU Q6_K 17tok/s vs GPU nvfp4 60tok/s、キャッシュ戦略と100kコンテキスト境界
Llama-4-Scout(17B活性/16エキスパートMoE)をEPYC 9175FのCPU Q6_K推論とRTX PRO 6000 Blackwell Max-QのGPU nvfp4推論で実測比較 …
1T級MoE Kimi-K2.5のCPU推論実測:スレッド最適化からLong Context運用設計まで
Kimi-K2.5(1.03T MoE, Q4_K_S/Q4_K_M)をEPYC 9175FでCPU推論した全記録。スレッド最適化でth=13が最適解になる理由、Q4_K_Mでの16k Long …
Llama-4-Maverick-17B-128E CPU推論:Q4_K_M vs Q8_0の速度・品質トレードオフ実測
Llama-4-Maverick(17B活性/128エキスパートMoE)をEPYC 9175FのCPU推論でQ4_K_MとQ8_0の両方を実測比較。Q4で21-24 tok/s、Q8で15-16 …
Qwen3-Coder-Next 80Bを3モードで回す:BF16 CPU / IQ4_NL Hybrid / nvfp4 GPU実測比較
Qwen3-Coder-Next(約80B MoE)をBF16 CPU推論(7.8 tok/s)、IQ4_NL Hybrid GPU offload(59-85 tok/s)、nvfp4 …
GLM-4.7-Flash IQ5_K ベンチマーク:CPU/Hybrid/Full GPUの3パターン実測比較
GLM-4.7-Flash(IQ5_K GGUF)をCPUオンリー、MoE Expertオフロード(Hybrid)、Full GPUの3構成で実測。Prefill 100 vs 1635 vs …
なぜDeepSeek-V3.2はKimi-K2.5より遅く見えるのか:プロンプトキャッシュ不一致とTGボトルネックの解析
DeepSeek-V3.2をllama.cppで実行した際のベンチマークログから、デコード速度が14-15 tok/sに張り付く原因をプロンプトキャッシュ不一致とメモリ帯域の観点で分析した記録。