Ollama

2025年7月28日
分类于案例, AI, IPEX-LLM, Ollama, 智能助手

英特尔“芯”AI，赋能云边端｜第七期：5000元 Ultra RAG 增强 30B 大模型，智启企业 AI 新纪元

经过前六期的探索，YiCoreAI 平台已通过 YIAISTUDIO 的高效训练（Arc A770 驱动 YOLOv8/v11 和 Qwen-7B）、YiCONNECT 的 Kubernetes 管理，以及 YiEDGE 的 Core Ultra NPU 40ms 延迟推理，构建了强大的云边端 AI 闭环。第五期我们在 Ultra 5 125H iGPU 上部署 MedGemma 4B IT，第六期借助 Ollama 优化 Qwen3:8B。如今，第七期我们迈向新高度：5000 元 Core Ultra 5 125H 笔记本融合 RAG 技术，增强 30B 大模型，助力企业实现智能化转型。

2025年7月14日
分类于案例, AI, LLM, Ollama, 解决方案

英特尔“芯”AI，赋能云边端｜第六期：使用 Ollama 在 Core Ultra 高效部署 Qwen3:8b

自第一期起，YiCoreAI 平台凭借 YIAISTUDIO 利用 Arc A770 GPU 高效训练 YOLOv8/v11 和 Qwen-7B，到 YiCONNECT 基于 Kubernetes 实现智能管理，再到 YiEDGE 依托 Core Ultra NPU 实现 40ms 延迟推理，逐步构建云边端 AI 闭环。第五期更在 Ultra 5 125H iGPU 上部署 MedGemma 4B IT，验证便携性。

第六期，Ollama 驱动 Qwen3:8b 在 Core Ultra 上实现高效部署，延迟低至 35ms，准确率超 85%，功耗优化显著，赋能教育心理健康和医疗诊断。

2025年7月12日
分类于技术方案, XPU, Qwen4, Ollama

分享：Ubuntu 环境下如何在 Intel xpu 上运行 ollama 驱动 Qwen3

随着人工智能技术的迅猛发展，特别是大语言模型（LLM）在企业级应用中的潜力日益凸显，如何在本地硬件上高效、安全地部署这些模型已成为开发者关注的焦点。英特尔作为AI硬件领域的领导者，通过其Core Ultra处理器（集成NPU和Arc GPU）以及IPEX-LLM（Intel Extension for PyTorch Large Language Models）优化库，提供了强大的端侧加速能力。结合轻量级的Ollama框架，我们可以在Ubuntu环境下，利用Intel XPU（特别是Arc系列GPU）实现Qwen3等开源大模型的本地化推理。

本文将详细分享一种基于Docker容器的部署实践：通过Intel官方的IPEX-LLM镜像，在Intel硬件上快速启动Ollama服务，并驱动Qwen3:8b模型运行。这种方式不仅充分利用了Intel GPU的异构计算优势，实现低延迟、高吞吐的推理，还确保了数据隐私和离线可用性，特别适用于企业AI解决方案的创新探索（如本次英特尔平台企业AI解决方案创新实践赛的项目开发）。

通过以下步骤，你将能轻松复现一个高效的本地LLM环境，开启端侧AI的新篇章。

英特尔“芯”AI，赋能云边端｜第七期：5000元 Ultra RAG 增强 30B 大模型， 智启企业 AI 新纪元

英特尔“芯”AI，赋能云边端｜第六期：使用 Ollama 在 Core Ultra 高效部署 Qwen3:8b

分享：Ubuntu 环境下如何在 Intel xpu 上运行 ollama 驱动 Qwen3

英特尔“芯”AI，赋能云边端｜第七期：5000元 Ultra RAG 增强 30B 大模型，智启企业 AI 新纪元