LLM-сервер

Для некоторых отчетов БОСС-Оффлайн используется генеративный ИИ на основе LLM-нейросети, поэтому для их использования необходимо выполнить настройки на этой странице.

Можно настроить как локальный сервер, так и облачный, или же оба одновременно.
Если настроены оба одновременно, то приоритет будет отдаваться локальному серверу, за исключением случаев, когда передаются нейтральные данные (не содержащие конфиденциальной или личной информации).

Для локального сервера поддерживается фреймворк Ollama, а для облачного ChatGPT, YandexGPT и Gemini.

URL-сервера
указать http или https URL сервера с установленным Ollama
Как правило, это http 11434
Пример:
http://192.168.0.111:11434

API-ключ
ChatGPT: нужно создать API-ключ и скопировать его в это поле.
YandexGPT: нужно настроить платежный кабинет здесь, а потом получить OAuth-токен и скопировать его в это поле.
Gemini: нужно создать API-ключ, подключить к нему биллинг, пополнить баланс, и затем скопировать ключ в это поле.

Модель
Ollama: указать используемую загруженную модель, на текущий момент времени рекомендуются модели от qwen3 или deepseek-r1
Например:
deepseek-r1:14b
deepseek-r1:32b
qwen3:14b
qwen3:32b
Нужно указать именно ту модель, которая загружена и установлена в Ollama. Полный список на сайте Ollama.
ChatGPT:
gpt-4o
o4-mini
gpt-4.1
gpt-4.1-mini
gpt-5
gpt-5-mini
gpt-5.1
и другие
YandexGPT:
gpt://<идентификатор_каталога>/yandexgpt
gpt://<идентификатор_каталога>/yandexgpt/latest
gpt://<идентификатор_каталога>/yandexgpt-lite
Gemini:
gemini-2.5-flash
gemini-2.5-flash-lite
gemini-2.5-pro
gemini-3.1-pro-preview
gemini-3-flash-preview
gemini-flash-latest
gemini-pro-latest
и другие

Ollama:
- использование GPU с поддержкой CUDA не является обязательным для работы, однако крайне рекомендуется, т.к. быстродействие будет выше на порядок даже в сравнении с многоядерными CPU-серверами!
- модель должна полностью помещаться в видеопамять или оперативную память;
- чем больше модель, тем лучше качество, но медленнее скорость;
- допускается использовать несколько GPU (если видеопамяти одного GPU не достаточно для размещения всей модели);
- при использовании GPU ресурсы CPU и RAM могут быть минимальными (например, 2 CPU и 4 GB RAM вполне достаточно).

Пример установки Ollama на Linux Ubuntu (предполагается что драйверы GPU уже установлены):

curl -fsSL https://ollama.com/install.sh | sh

Для не-localhost доступа и увеличения разрешенного времени загрузки модели рекомендуется сделать дополнительные настройки:

sudo nano /etc/systemd/system/ollama.service

В раздел [Service] необходимо добавить эти строки:

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_LOAD_TIMEOUT=60m"

Далее сохранить файл и выполнить:

sudo systemctl daemon-reload
sudo systemctl restart ollama

После нужно скачать и установить модель. Например, qwen3:32b

ollama run qwen3:32b

Внимание! Если в ходе загрузки модели вы увидите сообщение об ошибке "model requires more system memory than is available", хотя VRAM достаточно для размещения модели, то причина скорее всего будет в том, что по умолчанию в Ollama для моделей выбрано достаточно большое контекстное окно (context window) - 64K или более, которое отнимает дополнительно VRAM. В таком случае данную ошибку нужно игнорировать и посмотреть на настройку "Размер контекстного окна" на данной странице. Этот параметр означает буквально "какой объем информации модель может удерживать в памяти одновременно в ходе запроса", задается в токенах. Чем больше параметр, тем больше объем VRAM требуется и тем больше может быть сам объем запроса к нейросети, а если параметр context window слишком мал, то ответ будет менее качественным, т.к. часть вопроса нейросеть может "забыть" или не увидеть. Для текущих задач комплекса, как правило, достаточно установить 16384 (если VRAM позволяет, то можно установить больше), а минимально-рекомендуемое значение - 4096. Если же установить 0, то параметр будет определять сам фреймворк Ollama в зависимости от загруженной модели. Однако, устанавливать слишком большое значение тоже не рекомендуется, т.к. оно не должно превышать максимальное для данной модели (см. описание конкретной модели).

Узнать текущий объем использования VRAM обычно удобно через команду:

nvidia-smi

v11.3.3651 (build: May 12 2026)
Введение +Структура комплекса +Установка комплекса +Удаление комплекса +Обновление комплекса -Глобальные настройки Пользователи базы -Настройки комплекса Общее описание настроек -Серверные настройки Общие настройки Отложенный мониторинг Мониторинг - Снимки экранов Мониторинг - Веб-камеры Мониторинг - Автопрослушка Мониторинг - Печать на принтере Мониторинг - Теневое копирование Мониторинг - Цифровые отпечатки Мониторинг - Пользователи онлайн Мониторинг - Глобальный поиск Мониторинг - Чаты-звонки Распознавание лиц Распознавание текста (OCR) Классификация текста Сервер нейронной сети LLM-сервер Azure-интеграция Webex-интеграция Генератор отчетов - Параметры Генератор отчетов - Отчеты (начальникам) Генератор отчетов - Отчеты (сотрудникам) Генератор отчетов - Сохранение в папку Генератор отчетов - Отправка по FTP Генератор отчетов - Отправка на e-mail Генератор отчетов - Отправка на веб-сайт Генератор отчетов - Отправка в файлообменник Генератор отчетов - Угрозы Генератор уведомлений - Отправка на e-mail Генератор уведомлений - Отправка по SMS Генератор уведомлений - Интеграция с мессенджерами Генератор уведомлений - 2FA (БОСС) Защита клиента События Регулярные выражения Рабочий график syslog Веб-интерфейс Словари +Клиентские настройки (компьютера) +Клиентские настройки (пользователя) Группы Структура компании Графики работы Досье сотрудников Синхронизация с Active Directory Анализатор рисков и производительности Шаблоны отчетов Цифровые отпечатки Тарифы Списки пользователей Работа с базой SQL-консоль Журнал +Прочее +Интерфейс и отчеты +Вопросы и ответы (FAQ) +Техподдержка	LLM-сервер Для некоторых отчетов БОСС-Оффлайн используется генеративный ИИ на основе LLM-нейросети, поэтому для их использования необходимо выполнить настройки на этой странице. Можно настроить как локальный сервер, так и облачный, или же оба одновременно. Если настроены оба одновременно, то приоритет будет отдаваться локальному серверу, за исключением случаев, когда передаются нейтральные данные (не содержащие конфиденциальной или личной информации). Для локального сервера поддерживается фреймворк Ollama, а для облачного ChatGPT, YandexGPT и Gemini. URL-сервера указать http или https URL сервера с установленным Ollama Как правило, это http 11434 Пример: http://192.168.0.111:11434 API-ключ ChatGPT: нужно создать API-ключ и скопировать его в это поле. YandexGPT: нужно настроить платежный кабинет здесь, а потом получить OAuth-токен и скопировать его в это поле. Gemini: нужно создать API-ключ, подключить к нему биллинг, пополнить баланс, и затем скопировать ключ в это поле. Модель Ollama: указать используемую загруженную модель, на текущий момент времени рекомендуются модели от qwen3 или deepseek-r1 Например: deepseek-r1:14b deepseek-r1:32b qwen3:14b qwen3:32b Нужно указать именно ту модель, которая загружена и установлена в Ollama. Полный список на сайте Ollama. ChatGPT: gpt-4o o4-mini gpt-4.1 gpt-4.1-mini gpt-5 gpt-5-mini gpt-5.1 и другие YandexGPT: gpt://<идентификатор_каталога>/yandexgpt gpt://<идентификатор_каталога>/yandexgpt/latest gpt://<идентификатор_каталога>/yandexgpt-lite Gemini: gemini-2.5-flash gemini-2.5-flash-lite gemini-2.5-pro gemini-3.1-pro-preview gemini-3-flash-preview gemini-flash-latest gemini-pro-latest и другие Ollama: - использование GPU с поддержкой CUDA не является обязательным для работы, однако крайне рекомендуется, т.к. быстродействие будет выше на порядок даже в сравнении с многоядерными CPU-серверами! - модель должна полностью помещаться в видеопамять или оперативную память; - чем больше модель, тем лучше качество, но медленнее скорость; - допускается использовать несколько GPU (если видеопамяти одного GPU не достаточно для размещения всей модели); - при использовании GPU ресурсы CPU и RAM могут быть минимальными (например, 2 CPU и 4 GB RAM вполне достаточно). Пример установки Ollama на Linux Ubuntu (предполагается что драйверы GPU уже установлены): curl -fsSL https://ollama.com/install.sh \| sh Для не-localhost доступа и увеличения разрешенного времени загрузки модели рекомендуется сделать дополнительные настройки: sudo nano /etc/systemd/system/ollama.service В раздел [Service] необходимо добавить эти строки: Environment="OLLAMA_HOST=0.0.0.0" Environment="OLLAMA_LOAD_TIMEOUT=60m" Далее сохранить файл и выполнить: sudo systemctl daemon-reload sudo systemctl restart ollama После нужно скачать и установить модель. Например, qwen3:32b ollama run qwen3:32b Внимание! Если в ходе загрузки модели вы увидите сообщение об ошибке "model requires more system memory than is available", хотя VRAM достаточно для размещения модели, то причина скорее всего будет в том, что по умолчанию в Ollama для моделей выбрано достаточно большое контекстное окно (context window) - 64K или более, которое отнимает дополнительно VRAM. В таком случае данную ошибку нужно игнорировать и посмотреть на настройку "Размер контекстного окна" на данной странице. Этот параметр означает буквально "какой объем информации модель может удерживать в памяти одновременно в ходе запроса", задается в токенах. Чем больше параметр, тем больше объем VRAM требуется и тем больше может быть сам объем запроса к нейросети, а если параметр context window слишком мал, то ответ будет менее качественным, т.к. часть вопроса нейросеть может "забыть" или не увидеть. Для текущих задач комплекса, как правило, достаточно установить 16384 (если VRAM позволяет, то можно установить больше), а минимально-рекомендуемое значение - 4096. Если же установить 0, то параметр будет определять сам фреймворк Ollama в зависимости от загруженной модели. Однако, устанавливать слишком большое значение тоже не рекомендуется, т.к. оно не должно превышать максимальное для данной модели (см. описание конкретной модели). Узнать текущий объем использования VRAM обычно удобно через команду: nvidia-smi
© СТАХАНОВЕЦ