Каталог Поиск 0 Сравнить 0 Закладки 0 Корзина Войти
Каталог
105082, Москва, ул. Фридриха Энгельса, 75с21, БЦ Бауманский ИТКОЛ
Пн - Пт: с 09-00 до 18-00 Сб: с 10-00 до 18-00 Вс: выходной
Страницы: 1
RSS
USG перезагружается, UniFi Network
 
USG 4.4.8.5023698 недавно перезагружался три раза, удалось получить системные логи для одного из них:

06/11/2017 23:24:28 192.168.1.254 Перезагрузка через 60 секунд...  
06/11/2017 23:24:28 192.168.1.254 Kernel panic - не синхронизируется: hung_task: заблокированные задачи  
06/11/2017 23:24:28 192.168.1.254 «echo 0 > /proc/sys/kernel/hung_task_timeout_secs» отключит это сообщение.  
06/11/2017 23:24:28 192.168.1.254 «echo 0 > /proc/sys/kernel/hung_task_timeout_secs» отключит это сообщение.  
Gateway 11-06 23:24:24 3 kernel 0  
06/11/2017 23:24:28 192.168.1.254 INFO: задача ubnt-util:584 заблокирована более 120 секунд.  
Gateway 11-06 23:24:24 3 kernel 0  
06/11/2017 23:24:28 192.168.1.254 -monitor: последнее сообщение повторено 4 раза  
11-06 23:24:24 3 mca 1  
06/11/2017 23:24:28 192.168.1.254 INFO: задача ubnt-util:584 заблокирована более 120 секунд.  
06/11/2017 23:23:47 192.168.1.254 -monitor: mca-client.service(): ошибка отправки запроса в ‘/tmp/.mcad’ — ‘Ресурс временно недоступен’  
Gateway 11-06 23:23:43 3 mca 1  
06/11/2017 23:22:23 192.168.1.254 Процесс упал, создаётся дамп памяти: core=/var/core/core-ubnt-util-552-1510010538.gz свободно=1238МБ занято=21%  
Gateway 11-06 23:22:19 3 system 1  
06/11/2017 23:15:22 192.168.1.254 mca-edgemax.edgemax_stats_routes(): не удалось разобрать ответ (-1)  
Gateway 11-06 23:15:17 3 mcad 1  
06/11/2017 20:26:27 192.168.1.254 mca-edgemax.edgemax_stats_routes(): не удалось разобрать ответ (-1)  
Gateway 11-06 20:26:22 3 mcad 1

У меня есть также дампы памяти, прилагаю. Дайте знать, если нужно что-то ещё и существует ли какой-то способ повысить стабильность. Спасибо, Крис.
 
С тех пор как я применил исправление, перезагрузок не было. Уже 12 дней, так что, похоже, оно работает. Кстати, у меня версия 4.4.8.

@chrisgeary

Это исправление включено в версию 4.4.12? Я не вижу его в списке изменений: https://community.ui.com/releases/2e26cda8-03e7-458c-8a03-d3bff10da134 Может, стоит спросить UBNT-cmb для подтверждения?...
 
Я обновился до версии 4.4.12 и с тех пор ни разу не перезагружался. Время работы — около 12 дней. Раньше, как и у тебя, система падала примерно каждые три дня.
 
Я применил изменения, но не вижу, чтобы появлялся какой-то файл дампа. Обычно у меня после перезагрузки (сокращённый) файл дампа появляется раз в три дня — как по часам. Сейчас прошло почти 5 дней, так что файл дампа уже бы должен был появиться.

Кто-нибудь ещё смог получить файл дампа с этой настройкой?
 
Знаете, у меня такая же проблема с одним из моих USG 3P. Остальные четыре настроены точно так же, на той же прошивке 4.4.12, но только этот перезагружается без причины. Я уже работаю с поддержкой второго уровня по этому поводу. Мне кажется, дело связано с L2TP, поэтому я даже отключил входящий VPN, чтобы проверить, перестанет ли перезагружаться. Но если да — то что дальше? Ведь остальные настроены точно так же и не перезагружаются. Может быть, аппаратный сбой?

Вот часть лога сообщений, взятая с момента сбоя. Можно видеть, что время с 6:27 утра до 8:58 вечера — именно тогда и произошла перезагрузка. Кто-нибудь уже пришёл к каким-то выводам по этому вопросу? Просто интересно.

Jul 28 06:27:28 MainUSGSouthwoods ntpd[3026]: proto: precision = 53.876 usec
Jul 28 06:27:32 MainUSGSouthwoods ubnt-service-ssh: waiting for netplugd to be started...  
Jul 28 20:58:12 MainUSGSouthwoods xl2tpd[2841]: death_handler: Fatal signal 15 received
Jul 28 20:58:12 MainUSGSouthwoods xl2tpd[3236]: setsockopt recvref[30]: Protocol not available
Jul 28 20:58:20 MainUSGSouthwoods dhcpd: WARNING: Host declarations are global. They are not limited to the scope you declared them in.  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd:  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd: No subnet declaration for eth0 (98.10.137.71).  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd: ** Ignoring requests on eth0. If this is not what  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd:    you want, please write a subnet declaration  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd:    in your dhcpd.conf file for the network segment  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd:    to which interface eth0 is attached. **  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd:  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd:  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd: No subnet declaration for eth2 (98.10.129.208).  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd: ** Ignoring requests on eth2. If this is not what  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd:    you want, please write a subnet declaration  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd:    in your dhcpd.conf file for the network segment  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd:    to which interface eth2 is attached. **  
Jul 28 20:58:21 MainUSGSouthwoods dhcpd:  
Jul 28 20:58:41 MainUSGSouthwoods ddclient[3397]: SUCCESS: updating southwoods-unifi.dyndns.org: good: IP address set to 98.10.137.71
Jul 28 20:58:49 MainUSGSouthwoods netplugd: Starting network plug daemon: netplugd.  
Jul 28 20:58:54 MainUSGSouthwoods ubnt-service-ssh: starting the SSH service (see messages from sshd).  
Jul 28 20:58:58 MainUSGSouthwoods dpi_wlan_fw_rules.pl: dpi_wlan_fw_rules.pl started  
Jul 28 20:59:05 MainUSGSouthwoods wlb: wlb-wan_failover-eth0 Starting wlb watchdog on wlb-wan_failover-eth0 after 20s delay  
Jul 28 20:59:05 MainUSGSouthwoods wlb: wlb-wan_failover-eth2 Starting wlb watchdog on wlb-wan_failover-eth2 after 20s delay  
Jul 28 20:59:05 MainUSGSouthwoods wlb: group wan_failover, interface eth0 going Active  
Jul 28 20:59:09 MainUSGSouthwoods perl_wrapper: perl_wrapper.pl started  
Jul 28 20:59:16 MainUSGSouthwoods mca-monitor: mca-client.service(): Failed sending request to '/tmp/.mcad' - 'No such file or directory'  
Jul 28 20:59:30 MainUSGSouthwoods zebra[679]: warning: interface eth2 broadcast addr 255.255.255.255/20 != calculated 98.10.143.255, routing protocols may malfunction
Jul 28 20:59:32 MainUSGSouthwoods ipsec-dhclient-hook: DHCP address updated to 98.10.129.208 from : Updating ipsec configuration.  
Jul 28 20:59:33 MainUSGSouthwoods zebra[679]: warning: interface eth0 broadcast addr 255.255.255.255/20 != calculated 98.10.143.255, routing protocols may malfunction
Jul 28 20:59:34 MainUSGSouthwoods ipsec-dhclient-hook: DHCP address updated to 98.10.137.71 from : Updating ipsec configuration.  
Jul 28 20:59:36 MainUSGSouthwoods ipsec-dhclient-hook: DHCP address updated to 98.10.137.71 from : Updating ipsec configuration.  
Jul 28 20:59:37 MainUSGSouthwoods xl2tpd[3237]: death_handler: Fatal signal 15 received
Jul 28 20:59:37 MainUSGSouthwoods xl2tpd[4041]: setsockopt recvref[30]: Protocol not available
Jul 28 20:59:42 MainUSGSouthwoods kernel: [sched_delayed] sched: RT throttling activated
admin@MainUSGSouthwoods:/var/log$
 
Я только что отключил свой RADIUS сервер и удалил свою VPN-сеть L@TP в надежде, что это что-то даст.
 
Проблемы с перезагрузкой  
24 июня 17:12:56 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:12:57 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:13:00 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:13:00 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:13:02 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:13:02 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:14:22 USG mcad: ace_reporter.reporter_fail(): Неизвестно[11] (http://192.168.50.15:8080/inform)  
24 июня 17:14:22 USG mcad: ace_reporter.reporter_fail(): inform провален #1 (последний inform: 173 секунды назад), rc=11  
24 июня 17:15:32 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:15:32 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:15:34 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:15:34 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:15:36 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:15:36 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:15:39 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:15:39 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:15:39 USG mcad: mca-edgemax.egdemax_stats_vpn_status(): ошибка получения статуса VPN  
24 июня 17:15:45 USG perl_wrapper: Тайм-аут при открытии /var/run/perl_wrapper_resp_fifo в /usr/bin/perl_wrapper.pl строка 51.  
24 июня 17:15:45 USG perl_wrapper: 17 попыток открытия в /usr/bin/perl_wrapper.pl строка 58.  
24 июня 17:15:45 USG perl_wrapper: тайм-аут при открытии response FIFO для записи в /usr/bin/perl_wrapper.pl строка 209.  
24 июня 17:15:45 USG perl_wrapper: request_response вернул ошибку в /usr/bin/perl_wrapper.pl строка 301.  
24 июня 17:16:27 USG mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' – 'Ресурс временно недоступен'  
24 июня 17:16:38 USG mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' – 'Ресурс временно недоступен'  
24 июня 17:17:24 USG mcad: ace_reporter.reporter_fail(): Неизвестно[11] (http://192.168.50.15:8080/inform)  
24 июня 17:17:24 USG mcad: ace_reporter.reporter_fail(): inform провален #2 (последний inform: 354 секунды назад), rc=11  
24 июня 17:17:39 USG miniupnpd[2945]: SSDP пакет от 169.254.9.17:49152 не из LAN, игнорируем
24 июня 17:18:48 miniupnpd[2945]: последнее сообщение повторено 7 раз
24 июня 17:21:26 USG miniupnpd[2945]: SSDP пакет от 169.254.9.17:49152 не из LAN, игнорируем
24 июня 17:22:48 miniupnpd[2945]: последнее сообщение повторено 6 раз
24 июня 17:23:23 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:23:23 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:23:25 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:23:25 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:24:54 USG miniupnpd[2945]: SSDP пакет от 169.254.9.17:49152 не из LAN, игнорируем
24 июня 17:25:50 miniupnpd[2945]: последнее сообщение повторено 5 раз
24 июня 17:25:50 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:25:50 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:25:52 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:25:52 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:25:54 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:25:54 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:25:57 USG mcad: perl_wrapper.read_with_timeout(): тайм-аут при select() для response pipe  
24 июня 17:25:57 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM  
24 июня 17:25:57 USG mcad: mca-edgemax.egdemax_stats_vpn_status(): ошибка получения статуса VPN  
24 июня 17:26:05 USG perl_wrapper: Тайм-аут при открытии /var/run/perl_wrapper_resp_fifo в /usr/bin/perl_wrapper.pl строка 51.  
24 июня 17:26:05 USG perl_wrapper: 15 попыток открытия в /usr/bin/perl_wrapper.pl строка 58.  
24 июня 17:26:05 USG perl_wrapper: тайм-аут при открытии response FIFO для записи в /usr/bin/perl_wrapper.pl строка 209.  
24 июня 17:26:05 USG perl_wrapper: request_response вернул ошибку в /usr/bin/perl_wrapper.pl строка 301.  
24 июня 17:27:56 USG mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' – 'Ресурс временно недоступен'
 
То же самое. Обновился до 4.4.12, был перезапуск на выходных, и появился core-файл размером 3.0 МБ... Похоже, придется заново редактировать этот файл.
 
@UBNT-cmb

Стоит ли нам также установить
ulimit -c unlimited?
По умолчанию значение 0, так что мы никогда не получим core-файл.
> ulimit -a
core file size          (blocks, -c) 0
 
Сегодня утром примерно в 5 утра у меня внезапно перезагрузился роутер без видимых причин. Я запускал предложенное ручное исправление (через терминал), но заодно обновил прошивку с версии 4.4.8 на 4.4.12. Сейчас у меня стоит последняя стабильная версия контроллера и прошивки: 5.6.224.4.12.5032482.

Проверил через терминал и заметил, что новая прошивка перезаписала ручное изменение в файле 30-vyatta-router.conf. Строка вернулась к виду:  
kernel.core_pattern=|/opt/vyatta/sbin/core_handler.sh %e %p %t

Так что, думаю, можно сделать вывод, что прошивка 4.4.12 проблему не решает, но эта строка как бы «исправляет» её (или просто заглушает).
 
Ну, процесс util всё ещё падает, но с этим изменением в /var/core не создаётся файл core.

Я следил за идентификатором процесса util (раньше это был 3355), а сегодня он изменился.

4 S root 12588 594 17 80 0 - 31769 futex_ 03:28 ? 00:54:15 /usr/sbin/ubnt-util -f

Меня уже удивляет, что я не могу заставить процесс создать core файл с помощью kill -s SIGSEGV <util_process_id>.

@UBNT-cmb

Можете ли вы подсказать, как получить core файл при падении процесса, чтобы можно было сузить круг поиска проблемы?
 
Вижу пару исправлений сбоев, но не могу точно сказать, насколько они актуальны. Зато мой USG перестал вылетать после обновления, так что я доволен 😀
Страницы: 1
Читают тему (гостей: 1)