Руководство по устранению неполадок

Руководство по устранению неполадок платформы Docker с поддержкой графического процессора

Это руководство предназначено для помощи пользователям в устранении неполадок с настройкой платформы Docker с поддержкой графического процессора в операционных системах Linux и Windows. Он обеспечивает структурированный подход для обеспечения правильной настройки и функционирования платформы.


Первоначальная настройка для Linux

  • Правильный процесс установки:

    • Запустите настройку с веб-сайта в первый раз. На этом шаге устанавливаются необходимые драйверы.

    • После первой установки перезагрузите систему Linux.

    • Выполните процесс настройки во второй раз, после чего будет установлен Docker.


Проверка настройки в Linux и Windows

  • Команда подтверждения:

    • Чтобы проверить, правильно ли работает настройка, выполните:

    docker run --gpus all nvidia/cuda:11.0.3-base-ubuntu18.04 nvidia-smi
    • Вывод должен быть аналогичен результату nvidia-smi.

    • Эта команда проверяет, правильно ли Docker использует ваш графический процессор.


Устранение неполадок при неудачной установке в Linux

  • Использование сценария сброса (конец страницы):

    • Если команда подтверждения не удалась, используйте сценарий reset_drivers_and_docker:

    • chmod +x reset_drivers_and_docker.sh  
      ./reset_drivers_and_docker.sh
    • После запуска скрипта перезагрузите устройство.

    • Перезапустите настройку с веб-сайта. После автоматического перезапуска перезапустите установку, чтобы завершить установку.

    • Если после выполнения этих действий команда подтверждения снова не удалась, обратитесь за помощью по каналу поддержки сообщества.


Остановка платформы

  • Windows (с помощью PowerShell):

    • Чтобы остановить и удалить все контейнеры, выполните:

      docker ps -a -q | ForEach { docker rm $\_ }
  • Linux (с помощью терминала):

    • Чтобы остановить и удалить все контейнеры, используйте:

      sudo docker stop $(sudo docker ps -a -q); sudo docker rm $(sudo docker ps -q)

Перезапуск платформы после перезагрузки

  • После перезагрузки компьютера или сервера платформа потребует перезагрузки.

  • Повторите ту же команду, что и на веб-сайте при первоначальной настройке. (похоже на docker run -d ....)


📘ПРИМЕЧАНИЕ (ВАЖНО) :

Убедитесь, что вы не используете два экземпляра io-worker-vc Как это проверить:

 docker ps

Если есть 2 контейнера, на которых запущен один и тот же образ io-worker-vc, платформа будет работать со сбоями - вывод выглядит следующим образом

~$ docker ps
CONTAINER ID   IMAGE                               COMMAND                  CREATED          STATUS         PORTS     NAMES
87b1b066bdfa   ionetcontainers/io-worker-monitor   "tail -f /dev/null"      3 seconds ago    Up 2 seconds             agitated_hawking
7033c1b8feba   ionetcontainers/io-worker-vc        "sudo -E /srp/invoke…"   8 seconds ago    Up 8 seconds             friendly_ritchie
67f699e12c2e   ionetcontainers/io-worker-vc        "sudo -E /srp/invoke…"   10 seconds ago   Up 8 seconds             sleepy_feynman

Как это исправить? Запустите stop all docker containers (см. руководство по устранению неполадок) и выполните команду (docker run -d ...) с веб-сайта только ОДИН раз, чтобы нормально запустить платформу


Столкнулись с нестабильной безотказной работой Windows?

Чтобы убедиться, что время аренды DHCP на маршрутизаторе превышает 24 часа, откройте редактор групповой политики в операционной системе Windows. Продолжите с включением указанных настроек в следующей последовательности:

  1. Перейдите в раздел «Конфигурация компьютера» в редакторе групповой политики.

  2. В разделе «Конфигурация компьютера» найдите раздел «Административные шаблоны».

  3. В разделе "Административные шаблоны" перейдите в раздел "Система".

  4. В меню «Система» выберите «Управление питанием».

  5. Наконец, перейдите в подраздел «Настройки сна» в разделе «Управление питанием».

  6. В подменю «Настройки спящего режима» активируйте параметры «Разрешить подключение к сети во время режима ожидания (от батареи)» и «Разрешить подключение к сети во время режима ожидания (от сети)».

Пожалуйста, убедитесь, что эти конфигурации настроены соответствующим образом для желаемого результата.

Дополнительные руководства

Какие порты должны быть выставлены на брандмауэре для корректного функционирования платформы: (как linux, так и windows)

  • TCP 443 25061 5432 80

  • УДП 80 443 41641 3478

Как убедиться в успешном запуске программы?

  • При выполнении следующей команды в PowerShell (Windows) или Terminal (Linux) у вас должно быть постоянно запущено 2 контейнера Docker:

     docker ps
  • В случае, если контейнеров нет или запущен только 1 контейнер после docker run -d ... Команда с сайта:

    • Остановите табличку (см. руководство выше) и снова перезапустите платформу с помощью команды с веб-сайта

  • Если это по-прежнему не работает - обратитесь за помощью в наше сообщество Discord: https://discord.com/invite/kqFzFK7fg2

reset_drivers_and_docker.sh :

Создайте новый файл с именем «reset_drivers_and_docker.sh» и скопируйте и вставьте фрагмент кода ниже

reset_drivers_and_docker.sh<<

#!/bin/bash

# Stop all running Docker containers
echo "Stopping all running Docker containers..."
docker stop $(docker ps -a -q)

# Remove all Docker containers
echo "Removing all Docker containers..."
docker rm $(docker ps -a -q)

# Remove all Docker images
echo "Removing all Docker images..."
docker rmi $(docker images -q)

# Uninstall Docker Engine, CLI, and Containerd
echo "Uninstalling Docker..."
sudo apt-get purge -y docker-engine docker docker.io docker-ce docker-ce-cli containerd containerd.io

# Remove Docker's storage volumes
echo "Removing Docker storage volumes..."
sudo rm -rf /var/lib/docker
sudo rm -rf /var/lib/containerd

# Remove Docker group
sudo groupdel docker

# Remove Docker's configuration files
echo "Removing Docker configuration files..."
sudo rm -rf /etc/docker

# Remove any leftover Docker files
sudo find / -name '*docker*' -exec rm -rf {} \;

# Uninstall NVIDIA Docker
echo "Uninstalling NVIDIA Docker..."
sudo apt-get purge -y nvidia-docker

# Uninstall NVIDIA drivers
echo "Uninstalling NVIDIA drivers..."
sudo apt-get purge -y '*nvidia*'

# Remove any remaining NVIDIA directories
sudo rm -rf /usr/local/nvidia/

# Update the package lists
echo "Updating package lists..."
s

Last updated