Logo loFT LLC

  • person プロフィール
  • article 記事一覧
      • Dagster + NATS イベント駆動パイプライン設計と実装
      • Rust + NATS + Dagster AI知能工場:OpenAI互換プロキシ、冪等設計、SSEストリーミング、Go移行の全記録
      • Qwen3.5-122B-A10B ローカル推論による Django 5 旅行予約サイト生成テスト
      • なぜEPYC 9175Fの512MB L3キャッシュはMoE推論に効くのか:1Tモデル実測による仮説検証
      • なぜHermes-4.3-36Bの量子化選択で運用が変わるのか:BF16/FP8/nvfp4の実測比較
      • 40B Denseモデルの現実:IQuest-Coder-V1-40BをCPU/GPU/Aiderで回して分かったこと
      • MiniMax-2.5 229B MoEをIQ5K量子化でBlackwell GPU上で実行:生成速度35 tok/s・長コンテキスト65kの検証結果
      • MiniMax-2.5 (229B MoE) Expert Offload 運用と Web 生成検証:IQ5_K から IQ3_S まで
      • Qwen3.5-397B IQ4_NL実測:28回のランで平均22.5tok/s、ハイブリッドオフロード構成と400B級MoEの常用可能性
      • Llama-4-Scout-17B-16E実測:CPU Q6_K 17tok/s vs GPU nvfp4 60tok/s、キャッシュ戦略と100kコンテキスト境界
      • 1T級MoE Kimi-K2.5のCPU推論実測:スレッド最適化からLong Context運用設計まで
      • Llama-4-Maverick-17B-128E CPU推論:Q4_K_M vs Q8_0の速度・品質トレードオフ実測
      • Qwen3-Coder-Next 80Bを3モードで回す:BF16 CPU / IQ4_NL Hybrid / nvfp4 GPU実測比較
      • GLM-4.7-Flash IQ5_K ベンチマーク:CPU/Hybrid/Full GPUの3パターン実測比較
      • なぜDeepSeek-V3.2はKimi-K2.5より遅く見えるのか:プロンプトキャッシュ不一致とTGボトルネックの解析
      • code-tree 仕様・開発意図・期待効果 — LLMコンテキスト最適化ツール
      • shelpa-mcp: ボツになった仮想パイプラインの設計記録
      • shelpa: ボツになったサンドボックスMCPの設計と教訓
      • ctreeによるリファクタリング効果検証 — プロジェクトの構造最適化
      • code-tree HTML テンプレート・Markdownスキャナーの構築 — ドキュメント形式への拡張
      • ローカルLLMのパスエラーを自動解決するMCPツール:pathfinderの開発
      • pathfinderの最適化プロセス:モデル選定・精度調整・履歴相関の検証
      • Qwen3.5-397B 自律コード生成検証:歯科医院サイトから Django CMS 基盤まで
      • バイリンガルAI校正・翻訳プロンプト定義
      • LTX-2 動画生成プロンプトエンジニアリング:ホラー36シーンからシネマティック連続パイプラインまで
    Logo
    email ご相談はこちらから
      • English
    • 移動
    • 選択
    • 閉じる
      • Home
      • 開発ノート
      • LLM リサーチ
      On this page
      psychology

      LLM リサーチ

      大規模言語モデルのベンチマーク、CPU/GPU推論検証、最適化リサーチ。

      info
      技術メモとして残していた ObsidianノートにAIの要約を利用しています。
      globe

      Qwen3.5-122B-A10B ローカル推論による Django 5 旅行予約サイト生成テスト

      クラウドAPIを使わず、Qwen3.5-122B-A10B (Q5_K_M) のローカル推論だけでDjango 5フルスタックWebアプリをMCPエージェント経由で生成させた検証記録

      psychology

      なぜEPYC 9175Fの512MB L3キャッシュはMoE推論に効くのか:1Tモデル実測による仮説検証

      AMD EPYC 9175FでKimi-K2.5(1T級MoE)をCPUオンリー実行し、「巨大L3キャッシュがMoE推論を加速する」という仮説を実測データで検証した記録。当初仮説の棄却から修正版への過 …

      psychology

      なぜHermes-4.3-36Bの量子化選択で運用が変わるのか:BF16/FP8/nvfp4の実測比較

      Hermes-4.3-36BをBlackwell GPU上でBF16・FP8・nvfp4の3パターンで比較検証。nvfp4はBF16比2倍の速度だが、品質と速度のトレードオフは用途で切り替えるべきとい …

      psychology

      40B Denseモデルの現実:IQuest-Coder-V1-40BをCPU/GPU/Aiderで回して分かったこと

      IQuest-Coder-V1-40B-Instruct(Dense 40B)をCPU Q5_K_M、GPU nvfp4、Aider whole-editの3構成で検証。CPU推論は構造的に破綻 …

      psychology

      MiniMax-2.5 229B MoEをIQ5K量子化でBlackwell GPU上で実行:生成速度35 tok/s・長コンテキスト65kの検証結果

      MiniMax-2.5 229B MoEをIQ5K量子化で、NVIDIA RTX PRO 6000 Blackwell上で実行。Prompt評価時の速度ブレ(125-314 tok/s)、生成時の安定 …

      build

      MiniMax-2.5 (229B MoE) Expert Offload 運用と Web 生成検証:IQ5_K から IQ3_S まで

      229B級MoEモデル MiniMax-2.5 を EPYC 9175F + RTX PRO 6000 環境で動かした全記録。IQ5_K/IQ4_NL/IQ3_S の3段階の量子化で Expert …

      psychology

      Qwen3.5-397B IQ4_NL実測:28回のランで平均22.5tok/s、ハイブリッドオフロード構成と400B級MoEの常用可能性

      Qwen3.5-397B-A17B(397B総パラメータ/17B活性MoE)をIQ4_NL量子化でEPYC 9175F + GPU環境にハイブリッドデプロイ。28回の連続推論で平均TG …

      psychology

      Llama-4-Scout-17B-16E実測:CPU Q6_K 17tok/s vs GPU nvfp4 60tok/s、キャッシュ戦略と100kコンテキスト境界

      Llama-4-Scout(17B活性/16エキスパートMoE)をEPYC 9175FのCPU Q6_K推論とRTX PRO 6000 Blackwell Max-QのGPU nvfp4推論で実測比較 …

      psychology

      1T級MoE Kimi-K2.5のCPU推論実測:スレッド最適化からLong Context運用設計まで

      Kimi-K2.5(1.03T MoE, Q4_K_S/Q4_K_M)をEPYC 9175FでCPU推論した全記録。スレッド最適化でth=13が最適解になる理由、Q4_K_Mでの16k Long …

      psychology

      Llama-4-Maverick-17B-128E CPU推論:Q4_K_M vs Q8_0の速度・品質トレードオフ実測

      Llama-4-Maverick(17B活性/128エキスパートMoE)をEPYC 9175FのCPU推論でQ4_K_MとQ8_0の両方を実測比較。Q4で21-24 tok/s、Q8で15-16 …

      psychology

      Qwen3-Coder-Next 80Bを3モードで回す:BF16 CPU / IQ4_NL Hybrid / nvfp4 GPU実測比較

      Qwen3-Coder-Next(約80B MoE)をBF16 CPU推論(7.8 tok/s)、IQ4_NL Hybrid GPU offload(59-85 tok/s)、nvfp4 …

      psychology

      GLM-4.7-Flash IQ5_K ベンチマーク:CPU/Hybrid/Full GPUの3パターン実測比較

      GLM-4.7-Flash(IQ5_K GGUF)をCPUオンリー、MoE Expertオフロード(Hybrid)、Full GPUの3構成で実測。Prefill 100 vs 1635 vs …

      psychology

      なぜDeepSeek-V3.2はKimi-K2.5より遅く見えるのか:プロンプトキャッシュ不一致とTGボトルネックの解析

      DeepSeek-V3.2をllama.cppで実行した際のベンチマークログから、デコード速度が14-15 tok/sに張り付く原因をプロンプトキャッシュ不一致とメモリ帯域の観点で分析した記録。


      © 2017-2026 loFT LLC