Локальный Ai без сети интернет
Локальный ChatGPT, которому не нужны ваши куки, ваш Wi-Fi и ваше местоположение. Он живет у вас на SSD, жрет вашу оперативную память и в ответ рождает мысль.
Главный герой: Gemma 4 26B — это такой Google-продукт, который, кажется, сбежал из закрытой лаборатории и теперь в открытом доступе. 26 миллиардов параметров. Этого достаточно, чтобы написать диплом, рефакторить код, составить жалобу в ЖЭК и объяснить кошке, почему ее корм закончился. Правда, с кошкой будет сложнее.
Орудие пролетариата: Ollama — менеджер пакетов для моделей, который маскируется под простую консольную утилиту. Установил, написал ollama run gemma4:26b — и понеслась.
Часть 1. Установка
Самый большой подвох — не отсутствие интернета потом, а необходимость интернета сейчас, чтобы скачать модель. Да, ирония судьбы: чтобы жить без сети, нужно один раз к ней подключиться и скачать файл размером примерно 15–20 ГБ. Сделайте это в кафе, у друга или в ночи, когда тариф безлимитный. После этого интернет больше не понадобится.
1. Linux (Для тех, кто знает слово «ядро» в контексте, далеком от попкорна)
bash
# Устанавливаем Ollama одной строкой, как и завещал Линус Торвальдс
curl -fsSL https://ollama.com/install.sh | sh
# Запускаем сервис (он будет висеть в фоне)
systemctl start ollama
# (Опционально) Добавить в автозагрузку, чтобы он мучил вас при каждом включении:
systemctl enable ollama
# Скачиваем 26 миллиардов синапсов
ollama pull gemma4:26b
Нюансы Linux:
- Драйверы NVIDIA: Если у вас карточка от зеленых и вы хотите использовать CUDA, чтобы модель не тупила по 5 минут на абзац, установите
nvidia-container-toolkit. Иначе Ollama будет считать, что видеокарта — это дорогой обогреватель для вентилятора. - OpenCL/ROCm для AMD: Здесь начинается шаманство. Теоретически работает. Практически — приготовьтесь читать форумы уровня «я поставил патч ядра и у меня перестала работать мышь». Но если взлетит — вы бог.
2. MacOS (Для тех, кто любит, чтобы всё работало из коробки)
bash
# Скачиваем .dmg с сайта (сайт на английском, но картинки понятные). # Перетаскиваем иконку в Applications. Боже, как это скучно. # После установки в Терминале: ollama pull gemma4:26b
Нюансы Mac (особенно Apple Silicon M1/M2/M3):
- Память решает: Gemma 26B в квантовании 4-bit занимает в оперативке около 16-18 ГБ. Если у вас MacBook Air на 8 ГБ — не мучайте беднягу. Он начнет свопить на диск и будет отвечать со скоростью печатной машинки «Ятрань». Владельцам Mac с 24+ ГБ — респект, у вас портативный суперкомпьютер для конспирации.
- Metal: На Mac Ollama автоматом цепляет GPU. Это великолепно.
3. Windows (Территория боли, неожиданных обновлений и WSL2)
В Windows есть два пути:
- Путь самурая: Скачать экзешник с сайта Ollama. Дважды кликнуть. Согласиться, что программа внесет изменения. Это работает. Но. Оно жрет RAM как не в себя, потому что Windows любит забирать 40% памяти просто на отрисовку прозрачности панели задач.
- Путь ниндзя (рекомендуемый): Установить WSL2 (Windows Subsystem for Linux) с Ubuntu. Это даст прирост производительности и избавит вас от вида консоли PowerShell, которая цветом ошибок напоминает о тщетности бытия.
bash
# В WSL2 Ubuntu: curl -fsSL https://ollama.com/install.sh | sh ollama pull gemma4:26b
Нюанс Windows: Если поставить напрямую .exe, Ollama будет хранить модели в C:\Users\...\.ollama. Этот путь похоронен так глубоко в недрах системы, что чистильщики кэша CCleaner даже не догадываются о его существовании. Будьте готовы потерять 20 ГБ на диске C и потом искать их в панике.
Часть 2. Искусство задавать вопросы без Стыда (Повседневность)
Итак, Wi-Fi выключен. VPN спит. Модель в оперативке гудит вентиляторами. Что дальше?
Для учебы (Режим: «Я всё прослушал, спасайте»)
- Запрос:
Объясни мне квантовую запутанность так, будто я — персонаж аниме "Наруто", который только что получил по голове рамэном. - Ирония: Модель локальная, поэтому она честно скажет: «Представь, что у тебя есть два куная. Если ты замахнешься одним в Конохе, второй в Деревне Песка немедленно тоже замахнется, даже если между ними океан. Это не чакра, это спутанность.»
- Реальная польза: Реферирование PDF-статей (просто кидаете текст в консоль, она вернет выжимку), генерация шпаргалок, написание кода на Python для лабы, которую сдавать через час.
Для работы (Режим: «Меня всё бесит, напиши письмо вежливо»)
- Запрос:
Напиши ответ коллеге на письмо "Где отчет?". Ответ должен быть вежливым, но с пассивной агрессией 9-го уровня, используя отсылки к роману "Преступление и наказание". - Ирония: Gemma справится блестяще, потому что ее не сковывает корпоративная этика облачных провайдеров. Она не скажет «I am sorry, I cannot assist with that».
- Реальная польза: Анализ логов ошибок (вставьте 500 строк кода — получите гипотезу, где баг), рефакторинг легаси-кода, сочинение убедительных причин для отпуска.
Для быта (Режим: «Курица протухла, что делать?»)
- Запрос:
У меня есть гречка, банка сайры и засохший сыр пармезан. Придумай ужин, описание которого сделает меня счастливым в условиях отсутствия доставки еды. - Ирония: В отличие от облачных сервисов, локальная модель не вставит в рецепт рекламу доставки «Яндекс.Лавка». Она честно опишет процесс превращения остатков в «Фуа-гра студенческого разлива».
Часть 3. Хитрые нюансы (Как не сойти с ума, пока она думает)
- Скорость и Память (VRAM/RAM):
- 26B — это тяжело. Если у вас меньше 16 ГБ видеопамяти или меньше 32 ГБ обычной RAM — модель будет работать медленно. Очень медленно. Как диалап.
- Совет бывалого: Скачайте не
gemma4:26b, аgemma4:9b. 9 миллиардов параметров — это всё еще очень умно, но летает на любом ноутбуке. Потеря качества в задачах «напиши пост для соцсети» незаметна, а прирост скорости — гигантский.
- Квантование (Q4_K_M vs Q8):
- Команда
ollama pull gemma4:26bпо умолчанию тянет Q4_K_M. Это сжатая версия. Она теряет в точности около 1-2%, но занимает вдвое меньше места. - Если вы перфекционист с RTX 4090, качайте
ollama pull gemma4:26b-instruct-q8_0. Это будет весить все 30 ГБ, но фраза «вследствие» никогда не будет написана с ошибкой.
- Команда
- Контекст (Окно памяти):
- Модель помнит предыдущие 4096-8192 токенов (около 10-15 страниц текста). Если вы спросили про карбюратор, а потом через час про Декарта, она не свяжет это в историю про «думающий двигатель». Начинайте новый диалог командой
/clear.
- Модель помнит предыдущие 4096-8192 токенов (около 10-15 страниц текста). Если вы спросили про карбюратор, а потом через час про Декарта, она не свяжет это в историю про «думающий двигатель». Начинайте новый диалог командой
- Графическая оболочка (Для тех, кто боится черного экрана):
- Интернета нет, но мы ведь не в каменном веке. Поставьте Open WebUI. Это локальный аналог интерфейса ChatGPT, который работает прямо с вашим Ollama. Он ставится через Docker один раз и потом доступен по
http://localhost:3000даже в режиме «В самолете».
- Интернета нет, но мы ведь не в каменном веке. Поставьте Open WebUI. Это локальный аналог интерфейса ChatGPT, который работает прямо с вашим Ollama. Он ставится через Docker один раз и потом доступен по
Заключительная ирония
Вы скачали 20 гигабайт текстов и алгоритмов, чтобы заменить общение с интернетом. В процессе вы убили два вечера на настройку видеодрайверов в Linux. Зато теперь, когда отключат свет, вы сможете запустить ноутбук от пауэрбанка, спросить у модели: «Как разжечь костер трением, если я гуманитарий?», и получить ответ, который сгенерирует локальный ИИ, потребляя 40 ватт энергии… чтобы в итоге посоветовать вам найти спички в кухонном ящике.
Локальный ИИ — это не столько необходимость, сколько роскошь понимания, что Google больше за вами не следит. Хотя ваша видеокарта теперь знает о вас всё.
