Уже несколько лет я самостоятельно размещал контроллеры Unifi для своих клиентов без особых проблем. Единственная неприятность случалась, когда мой сервер уходил в оффлайн. Поэтому я решил перейти на облачный контроллер. Несколько месяцев назад я сделал решительный шаг и перенес большинство своих сайтов на контроллер, размещенный на DigitalOcean. Сначала все шло гладко, но потом я обнаружил, что на некоторых сайтах устройства начали случайным образом уходить в оффлайн. Кроме того, я видел, что устройства циклически переходили в режим подготовки и затем снова появлялись в сети. После небольшого расследования я выяснил, что причина, вероятно, заключалась в том, что мой исходный контроллер все еще был в сети и размещал несколько сайтов, которые я еще не готов был переносить. Плюс ко всему, на той же локальной сети с этим контроллером находился USG, который теперь контролировался облачным контроллером. Похоже, это создавало какой-то эффект моста и сбивало с толку устройства. Я ускорил миграцию этих сайтов, отключил локальный контроллер, и большинство проблем исчезло.
Однако есть один сайт, который упорно не хочет работать нормально. Там три U6 lite подключены к неуправляемому коммутатору и маршрутизатору третьей стороны. Я сначала выполнил сброс всех устройств до заводских настроек и даже создал совершенно новый сайт. Но устройства все равно уходят в оффлайн в течение 24 часов после переконфигурации. Два дня назад я решил провести более детальное расследование. Устройства 1 и 2 показывали статус оффлайн. Я подключился к устройству 3, используя режим отладки. Первое, что я заметил, – это «[Device name]-[Error-A12]» в командной строке, но это было как раз то устройство, которое работало, поэтому я пока это игнорирую. Я подключился к другим устройствам по SSH, используя учетные данные своего контроллера (он не вернулся на стандартные), и с помощью команды «info» узнал, что устройство пытается подключиться к «». Я попробовал несколько раз выполнить set-inform – сначала получил ошибку отказа сервера, потом ошибку истечения времени ожидания, а после примерно десяти попыток set-inform устройство показало статус «not adopted». Я зашел в контроллер, удалил устройство, и оно снова появилось в статусе готовности к добавлению. Я добавил его, и спокойствие восстановилось... Но на следующее утро все повторилось сначала.
Чтобы провести тщательное расследование, я внимательно проверил все свои сайты и обнаружил, что АБСОЛЮТНО ВСЕ необъяснимо отключенные устройства – это U6 lite. Речь идет примерно о 25 устройствах в разных местоположениях. На некоторых локациях есть другие устройства в сети, на нескольких локациях даже есть работающий U6 lite, а на некоторых площадках исключительно U6 lite, и они показывают статус полностью отключены. (У меня нет активного контракта на мониторинг у большинства клиентов, вот почему я раньше не заметил масштаб этой проблемы.) Я видел ситуации, когда устройства показывали статус оффлайн в контроллере, но при этом работали нормально. Я предполагаю, что это именно тот случай, и поэтому я не получал волну жалоб. (Вероятно, устройство у клиента, которое спровоцировало это расследование, тоже нормально работает в оффлайне, но поскольку оно находится в спальне и светодиод был выключен, то белое свечение его теперь раздражает владельца.)
Кстати, проходя по сайтам, я все еще видел цикл «getting ready» – «up to date» на нескольких из них.
Версия контроллера 9.1.120 – я хотел обновиться, но сначала хочу разрешить эту проблему, если, конечно, обновление ее не решит, но это кажется маловероятным.
Прошивка U6 lite в большинстве мест – 6.7.31. На всех офлайн-локациях я не смог это подтвердить.
Я точно видел эти проблемы с прошивкой 6.7.17, но не уверен насчет более ранних версий. Обычно я не включаю автоматическое обновление, но когда мигрировал на облачный контроллер на DigitalOcean, я понял, что оно было включено. Мне интересно, начались ли проблемы именно с прошивки 6.7.17, и поможет ли откат на более раннюю версию решить эту проблему.
Мне пришла в голову мысль, что это может быть проблема с DNS, но я предполагаю, что проблема была бы более универсальной, если бы это был именно тот случай, а не ограничивалась бы только U6 lite.
Цикл «getting ready» не привязан ни к одному конкретному устройству.
Я приложил несколько скриншотов экрана отладки.
Однако есть один сайт, который упорно не хочет работать нормально. Там три U6 lite подключены к неуправляемому коммутатору и маршрутизатору третьей стороны. Я сначала выполнил сброс всех устройств до заводских настроек и даже создал совершенно новый сайт. Но устройства все равно уходят в оффлайн в течение 24 часов после переконфигурации. Два дня назад я решил провести более детальное расследование. Устройства 1 и 2 показывали статус оффлайн. Я подключился к устройству 3, используя режим отладки. Первое, что я заметил, – это «[Device name]-[Error-A12]» в командной строке, но это было как раз то устройство, которое работало, поэтому я пока это игнорирую. Я подключился к другим устройствам по SSH, используя учетные данные своего контроллера (он не вернулся на стандартные), и с помощью команды «info» узнал, что устройство пытается подключиться к «». Я попробовал несколько раз выполнить set-inform – сначала получил ошибку отказа сервера, потом ошибку истечения времени ожидания, а после примерно десяти попыток set-inform устройство показало статус «not adopted». Я зашел в контроллер, удалил устройство, и оно снова появилось в статусе готовности к добавлению. Я добавил его, и спокойствие восстановилось... Но на следующее утро все повторилось сначала.
Чтобы провести тщательное расследование, я внимательно проверил все свои сайты и обнаружил, что АБСОЛЮТНО ВСЕ необъяснимо отключенные устройства – это U6 lite. Речь идет примерно о 25 устройствах в разных местоположениях. На некоторых локациях есть другие устройства в сети, на нескольких локациях даже есть работающий U6 lite, а на некоторых площадках исключительно U6 lite, и они показывают статус полностью отключены. (У меня нет активного контракта на мониторинг у большинства клиентов, вот почему я раньше не заметил масштаб этой проблемы.) Я видел ситуации, когда устройства показывали статус оффлайн в контроллере, но при этом работали нормально. Я предполагаю, что это именно тот случай, и поэтому я не получал волну жалоб. (Вероятно, устройство у клиента, которое спровоцировало это расследование, тоже нормально работает в оффлайне, но поскольку оно находится в спальне и светодиод был выключен, то белое свечение его теперь раздражает владельца.)
Кстати, проходя по сайтам, я все еще видел цикл «getting ready» – «up to date» на нескольких из них.
Версия контроллера 9.1.120 – я хотел обновиться, но сначала хочу разрешить эту проблему, если, конечно, обновление ее не решит, но это кажется маловероятным.
Прошивка U6 lite в большинстве мест – 6.7.31. На всех офлайн-локациях я не смог это подтвердить.
Я точно видел эти проблемы с прошивкой 6.7.17, но не уверен насчет более ранних версий. Обычно я не включаю автоматическое обновление, но когда мигрировал на облачный контроллер на DigitalOcean, я понял, что оно было включено. Мне интересно, начались ли проблемы именно с прошивки 6.7.17, и поможет ли откат на более раннюю версию решить эту проблему.
Мне пришла в голову мысль, что это может быть проблема с DNS, но я предполагаю, что проблема была бы более универсальной, если бы это был именно тот случай, а не ограничивалась бы только U6 lite.
Цикл «getting ready» не привязан ни к одному конкретному устройству.
Я приложил несколько скриншотов экрана отладки.
