Локальный Ai без сети интернет

Локальный ChatGPT, которому не нужны ваши куки, ваш Wi-Fi и ваше местоположение. Он живет у вас на SSD, жрет вашу оперативную память и в ответ рождает мысль.

Главный герой: Gemma 4 26B — это такой Google-продукт, который, кажется, сбежал из закрытой лаборатории и теперь в открытом доступе. 26 миллиардов параметров. Этого достаточно, чтобы написать диплом, рефакторить код, составить жалобу в ЖЭК и объяснить кошке, почему ее корм закончился. Правда, с кошкой будет сложнее.

Орудие пролетариата: Ollama — менеджер пакетов для моделей, который маскируется под простую консольную утилиту. Установил, написал ollama run gemma4:26b — и понеслась.

Часть 1. Установка

Самый большой подвох — не отсутствие интернета потом, а необходимость интернета сейчас, чтобы скачать модель. Да, ирония судьбы: чтобы жить без сети, нужно один раз к ней подключиться и скачать файл размером примерно 15–20 ГБ. Сделайте это в кафе, у друга или в ночи, когда тариф безлимитный. После этого интернет больше не понадобится.

1. Linux (Для тех, кто знает слово «ядро» в контексте, далеком от попкорна)

bash

# Устанавливаем Ollama одной строкой, как и завещал Линус Торвальдс
curl -fsSL https://ollama.com/install.sh | sh

# Запускаем сервис (он будет висеть в фоне)
systemctl start ollama
# (Опционально) Добавить в автозагрузку, чтобы он мучил вас при каждом включении:
systemctl enable ollama

# Скачиваем 26 миллиардов синапсов
ollama pull gemma4:26b

Нюансы Linux:

Драйверы NVIDIA: Если у вас карточка от зеленых и вы хотите использовать CUDA, чтобы модель не тупила по 5 минут на абзац, установите nvidia-container-toolkit. Иначе Ollama будет считать, что видеокарта — это дорогой обогреватель для вентилятора.
OpenCL/ROCm для AMD: Здесь начинается шаманство. Теоретически работает. Практически — приготовьтесь читать форумы уровня «я поставил патч ядра и у меня перестала работать мышь». Но если взлетит — вы бог.

2. MacOS (Для тех, кто любит, чтобы всё работало из коробки)

bash

# Скачиваем .dmg с сайта (сайт на английском, но картинки понятные).
# Перетаскиваем иконку в Applications. Боже, как это скучно.

# После установки в Терминале:
ollama pull gemma4:26b

Нюансы Mac (особенно Apple Silicon M1/M2/M3):

Память решает: Gemma 26B в квантовании 4-bit занимает в оперативке около 16-18 ГБ. Если у вас MacBook Air на 8 ГБ — не мучайте беднягу. Он начнет свопить на диск и будет отвечать со скоростью печатной машинки «Ятрань». Владельцам Mac с 24+ ГБ — респект, у вас портативный суперкомпьютер для конспирации.
Metal: На Mac Ollama автоматом цепляет GPU. Это великолепно.

3. Windows (Территория боли, неожиданных обновлений и WSL2)

В Windows есть два пути:

Путь самурая: Скачать экзешник с сайта Ollama. Дважды кликнуть. Согласиться, что программа внесет изменения. Это работает. Но. Оно жрет RAM как не в себя, потому что Windows любит забирать 40% памяти просто на отрисовку прозрачности панели задач.
Путь ниндзя (рекомендуемый): Установить WSL2 (Windows Subsystem for Linux) с Ubuntu. Это даст прирост производительности и избавит вас от вида консоли PowerShell, которая цветом ошибок напоминает о тщетности бытия.

bash

# В WSL2 Ubuntu:
curl -fsSL https://ollama.com/install.sh | sh
ollama pull gemma4:26b

Нюанс Windows: Если поставить напрямую .exe, Ollama будет хранить модели в C:\Users\...\.ollama. Этот путь похоронен так глубоко в недрах системы, что чистильщики кэша CCleaner даже не догадываются о его существовании. Будьте готовы потерять 20 ГБ на диске C и потом искать их в панике.

Часть 2. Искусство задавать вопросы без Стыда (Повседневность)

Итак, Wi-Fi выключен. VPN спит. Модель в оперативке гудит вентиляторами. Что дальше?

Для учебы (Режим: «Я всё прослушал, спасайте»)

Запрос: Объясни мне квантовую запутанность так, будто я — персонаж аниме "Наруто", который только что получил по голове рамэном.
Ирония: Модель локальная, поэтому она честно скажет: «Представь, что у тебя есть два куная. Если ты замахнешься одним в Конохе, второй в Деревне Песка немедленно тоже замахнется, даже если между ними океан. Это не чакра, это спутанность.»
Реальная польза: Реферирование PDF-статей (просто кидаете текст в консоль, она вернет выжимку), генерация шпаргалок, написание кода на Python для лабы, которую сдавать через час.

Для работы (Режим: «Меня всё бесит, напиши письмо вежливо»)

Запрос: Напиши ответ коллеге на письмо "Где отчет?". Ответ должен быть вежливым, но с пассивной агрессией 9-го уровня, используя отсылки к роману "Преступление и наказание".
Ирония: Gemma справится блестяще, потому что ее не сковывает корпоративная этика облачных провайдеров. Она не скажет «I am sorry, I cannot assist with that».
Реальная польза: Анализ логов ошибок (вставьте 500 строк кода — получите гипотезу, где баг), рефакторинг легаси-кода, сочинение убедительных причин для отпуска.

Для быта (Режим: «Курица протухла, что делать?»)

Запрос: У меня есть гречка, банка сайры и засохший сыр пармезан. Придумай ужин, описание которого сделает меня счастливым в условиях отсутствия доставки еды.
Ирония: В отличие от облачных сервисов, локальная модель не вставит в рецепт рекламу доставки «Яндекс.Лавка». Она честно опишет процесс превращения остатков в «Фуа-гра студенческого разлива».

Часть 3. Хитрые нюансы (Как не сойти с ума, пока она думает)

Скорость и Память (VRAM/RAM):
- 26B — это тяжело. Если у вас меньше 16 ГБ видеопамяти или меньше 32 ГБ обычной RAM — модель будет работать медленно. Очень медленно. Как диалап.
- Совет бывалого: Скачайте не gemma4:26b, а gemma4:9b. 9 миллиардов параметров — это всё еще очень умно, но летает на любом ноутбуке. Потеря качества в задачах «напиши пост для соцсети» незаметна, а прирост скорости — гигантский.
Квантование (Q4_K_M vs Q8):
- Команда ollama pull gemma4:26b по умолчанию тянет Q4_K_M. Это сжатая версия. Она теряет в точности около 1-2%, но занимает вдвое меньше места.
- Если вы перфекционист с RTX 4090, качайте ollama pull gemma4:26b-instruct-q8_0. Это будет весить все 30 ГБ, но фраза «вследствие» никогда не будет написана с ошибкой.
Контекст (Окно памяти):
- Модель помнит предыдущие 4096-8192 токенов (около 10-15 страниц текста). Если вы спросили про карбюратор, а потом через час про Декарта, она не свяжет это в историю про «думающий двигатель». Начинайте новый диалог командой /clear.
Графическая оболочка (Для тех, кто боится черного экрана):
- Интернета нет, но мы ведь не в каменном веке. Поставьте Open WebUI. Это локальный аналог интерфейса ChatGPT, который работает прямо с вашим Ollama. Он ставится через Docker один раз и потом доступен по http://localhost:3000 даже в режиме «В самолете».

Заключительная ирония

Вы скачали 20 гигабайт текстов и алгоритмов, чтобы заменить общение с интернетом. В процессе вы убили два вечера на настройку видеодрайверов в Linux. Зато теперь, когда отключат свет, вы сможете запустить ноутбук от пауэрбанка, спросить у модели: «Как разжечь костер трением, если я гуманитарий?», и получить ответ, который сгенерирует локальный ИИ, потребляя 40 ватт энергии… чтобы в итоге посоветовать вам найти спички в кухонном ящике.

Локальный ИИ — это не столько необходимость, сколько роскошь понимания, что Google больше за вами не следит. Хотя ваша видеокарта теперь знает о вас всё.