Привет, мой USG постоянно вылетает примерно раз в три дня. Сейчас стоит версия 3p 4.3.60. Пробовал 4.4.6 и 4.4.8, пытался обновлять и откатывать прошивку, сбрасывать к заводским настройкам, сбрасывать и потом обновлять — ничего не помогает. Контроллер у меня 5.6.19. Мой rpi, сервер, usw-8p 60 и компьютер подключены в одну и ту же розетку и не перезагружаются, так что сомневаюсь, что проблема в электричестве в доме.
UI-Team
Guest
10.11.2017 00:15:00
Да, если у тебя есть файлы, которые удалось успешно распаковать, я бы очень хотел их получить. Если ты можешь без ошибок раскрыть архив gunzip, значит всё в порядке. Если при попытке вылетает ошибка — значит файл повреждён. Можешь прислать ссылку здесь в ЛС для скачивания или отправить письмо на chris.buechler@ubnt.com с ссылкой на эту тему.
DeusMaximus
Guest
09.11.2017 23:17:00
Я просто проверял, когда мой USG перезагружался, сопоставляя это со списком дампов ядра. USG аварийно завершил работу 26-го числа прошлого месяца, а также 2-го и 9-го этого месяца. Исходя из того, что система перезагружается, если запись дампа ядра занимает больше 120 секунд, и учитывая, что 29-го и 6-го перезагрузок не было, получается, что эти дампы должны быть целыми, верно? Мне стоит отправить тебе эти два дампа по электронной почте?
Правка: Вместо 29-го написал 26-е.
UI-Team
Guest
09.11.2017 21:08:00
Причина сбоя ОС в этих случаях установлена: большие core-файлы gzip’ятся и записываются дольше 120 секунд, из-за чего система перезагружается. Сам по себе сбой ubnt-util не влияет на работу системы. Правильное решение уже разрабатывается, но пока можно обойти проблему, отредактировав файл /etc/sysctl.d/30-vyatta-router.conf, заменив строку kernel.core_pattern на: kernel.core_pattern = /var/core/core-%e-%p-%t затем перезагрузиться для применения изменений.
Пока что мне не удалось получить пригодный для анализа core из ситуаций с большими файлами — gzip оставляет после себя только частичные, повреждённые файлы, так как процесс прерывается при перезагрузке. Если внесёте изменения, проверяйте через день-два, не остался ли core-файл, и, если да, присылайте мне. Он будет необоснованно большим, но вы легко можете gzip’нуть его на работающей системе — проблема именно в gzip, который запускается как часть обработки kernel core и вызывает перезагрузку.
lmc_network
Guest
24.06.2018 22:16:00
У меня проблема с версиями 4.4.22, 4.4.21 и 4.4.18. Только что снова произошло падение.
Jun 24 17:12:56 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:12:57 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:13:00 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:13:00 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:13:02 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:13:02 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:14:22 USG mcad: ace_reporter.reporter_fail(): Unknown[11] () Jun 24 17:14:22 USG mcad: ace_reporter.reporter_fail(): inform не удался #1 (последний inform был 173 секунды назад), rc=11 Jun 24 17:15:32 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:15:32 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:15:34 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:15:34 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:15:36 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:15:36 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:15:39 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:15:39 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:15:39 USG mcad: mca-edgemax.egdemax_stats_vpn_status(): ошибка получения статуса VPN Jun 24 17:15:45 USG perl_wrapper: Таймаут при открытии /var/run/perl_wrapper_resp_fifo в /usr/bin/perl_wrapper.pl строка 51. Jun 24 17:15:45 USG perl_wrapper: 17 попыток открытия в /usr/bin/perl_wrapper.pl строка 58. Jun 24 17:15:45 USG perl_wrapper: таймаут на открытие response FIFO для записи в /usr/bin/perl_wrapper.pl строка 209. Jun 24 17:15:45 USG perl_wrapper: request_response вернул ошибку в /usr/bin/perl_wrapper.pl строка 301. Jun 24 17:16:27 USG mca-monitor: mca-client.service(): не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Jun 24 17:16:38 USG mca-monitor: mca-client.service(): не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Jun 24 17:17:24 USG mcad: ace_reporter.reporter_fail(): Unknown[11] () Jun 24 17:17:24 USG mcad: ace_reporter.reporter_fail(): inform не удался #2 (последний inform был 354 секунды назад), rc=11 Jun 24 17:17:39 USG miniupnpd[2945]: SSDP пакет отправитель 169.254.9.17:49152 не из LAN, игнорируем Jun 24 17:18:48 miniupnpd[2945]: последнее сообщение повторялось 7 раз Jun 24 17:21:26 USG miniupnpd[2945]: SSDP пакет отправитель 169.254.9.17:49152 не из LAN, игнорируем Jun 24 17:22:48 miniupnpd[2945]: последнее сообщение повторялось 6 раз Jun 24 17:23:23 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:23:23 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:23:25 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:23:25 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:24:54 USG miniupnpd[2945]: SSDP пакет отправитель 169.254.9.17:49152 не из LAN, игнорируем Jun 24 17:25:50 miniupnpd[2945]: последнее сообщение повторялось 5 раз Jun 24 17:25:50 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:25:50 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:25:52 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:25:52 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:25:54 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:25:54 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:25:57 USG mcad: perl_wrapper.read_with_timeout(): таймаут на select() для response pipe Jun 24 17:25:57 USG mcad: perl_wrapper.perl_request_response(): ошибка чтения SOM Jun 24 17:25:57 USG mcad: mca-edgemax.egdemax_stats_vpn_status(): ошибка получения статуса VPN Jun 24 17:26:05 USG perl_wrapper: Таймаут при открытии /var/run/perl_wrapper_resp_fifo в /usr/bin/perl_wrapper.pl строка 51. Jun 24 17:26:05 USG perl_wrapper: 15 попыток открытия в /usr/bin/perl_wrapper.pl строка 58. Jun 24 17:26:05 USG perl_wrapper: таймаут на открытие response FIFO для записи в /usr/bin/perl_wrapper.pl строка 209. Jun 24 17:26:05 USG perl_wrapper: request_response вернул ошибку в /usr/bin/perl_wrapper.pl строка 301. Jun 24 17:27:56 USG mca-monitor: mca-client.service(): не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен'
NetTinkerer
Guest
24.06.2018 19:54:00
Было бы полезно узнать, какую прошивку вы используете — если версия ниже 4.4.22, то стоит попробовать обновиться до неё...
lmc_network
Guest
24.06.2018 18:14:00
У меня такая же проблема.
gnomehole
Guest
30.04.2018 15:23:00
У меня версия 4.4.18.5052172, и опять произошла перезагрузка. Это случается у меня каждые пару дней, без какого-то определённого порядка. Сегодня утром это произошло прямо посреди презентации в Webex для руководства, так что теперь я здесь, чтобы узнать больше информации и получить помощь, чем смогу.
layzzzee8
Guest
04.04.2018 13:28:00
Проблема, из-за которой началась эта тема, определённо не проявляется в версии 4.4.18. Известных сбоев из-за программного обеспечения сейчас нет. Чтобы что-то посоветовать, нужно увидеть вывод с последовательной консоли в момент сбоя. У меня устройство падает каждый раз, когда я подключаюсь через VPN с телефона или рабочего ПК и при этом быстро что-то скачиваю локально. При скорости около 30-40 МБ/с и выше сбои происходят стабильно.
UI-Team
Guest
31.03.2018 05:34:00
Проблема, которая вызвала эту тему, определённо не возникает в версии 4.4.18. Известных сбоев из-за программного обеспечения нет. Чтобы что-то посоветовать, нужно увидеть вывод последовательной консоли во время сбоя.
focher
Guest
30.03.2018 18:25:00
У меня версия 4.4.18.5052172, и постоянно происходят перезагрузки. Есть ли ориентировочная дата, когда это исправят, или хотя бы временное решение?
RichieB
Guest
19.11.2017 15:57:00
У меня такая же проблема с моим USG3P на версии 4.4.12.5032482:
Nov 19 12:15:24 USG3P system: Процесс crashed, создаётся coredump: core=/var/core/core-ubnt-util-598-1511090124.gz свободного места=1208MB, занято=23% Nov 19 12:16:49 USG3P mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Nov 19 12:16:59 USG3P mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Nov 19 12:17:01 USG3P rsyslogd: установка SCM_CREDENTIALS не удалась для '/dev/log': протокол недоступен Nov 19 12:17:09 USG3P mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Nov 19 12:17:19 USG3P mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Nov 19 12:17:29 USG3P mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Nov 19 12:17:39 USG3P mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Nov 19 12:17:49 USG3P mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Nov 19 12:17:59 USG3P mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Nov 19 12:18:09 USG3P mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Nov 19 12:18:19 USG3P mca-monitor: mca-client.service(): Не удалось отправить запрос в '/tmp/.mcad' — 'Ресурс временно недоступен' Nov 19 12:18:19 USG3P syswrapper: kill-mcad. причина: mcad не отвечает Nov 19 12:18:19 USG3P mcad: mca-edgemax-api.edgemax_do_service(): Нет ответа в течение 900.00 секунд Nov 19 12:18:22 USG3P redirector: redirector.sigint_handler(): получен сигнал 15 Nov 19 12:18:42 USG3P kernel: ИНФОРМАЦИЯ: задача ubnt-util:631 заблокирована более 120 секунд. Nov 19 12:18:42 USG3P kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" отключает это сообщение.
Нашёл 3 дампа памяти в /var/core, если они ещё нужны: USG3P:~$ ls -la /var/core total 16084 drwxr-xr-x 1 root root 4096 Nov 19 12:15 . drwxr-xr-x 1 root root 4096 Nov 13 01:06 .. -rw-r--r-- 1 root root 5419008 Nov 16 03:06 core-ubnt-util-598-1510797786.gz -rw-r--r-- 1 root root 5349376 Nov 19 12:18 core-ubnt-util-598-1511090124.gz -rw-r--r-- 1 root root 5656576 Nov 13 01:09 core-ubnt-util-609-1510531603.gz
Со мной это тоже часто происходит, примерно раз в три дня. Я нашёл несколько целых дампов памяти и начал их изучать — судя по всему, в ubnt-util есть утечка памяти, так как я вижу множество ошибок выделения памяти, связанных с PAM, и этот процесс пока что занимает наибольший объём памяти из тех, что я встречал. Рассказывать больше не могу, потому что у меня не настроен gdb для mips32, да и с QEMU возиться не хочется.
Ранее предложенное решение (обход шелл-скрипта /opt/vyatta/sbin/core_handler.sh) кажется немного некорректным, так как он всё-таки выполняет полезные функции защиты — если убрать этот скрипт, сжатие не произойдёт и не будет проверки свободного места перед записью core. Проблема, как я вижу, в том, что вы пытаетесь сжать файл gzip прямо во время процесса, который приведёт к перезагрузке ядра, если оно посчитает, что задача зависла (потому что kernel.hung_task_panic = 1). Я могу придумать разные асинхронные способы решения — но, честно говоря, при этом немножко теряется логирование, если не использовать специальные буферизационные хитрости.
В любом случае, это точно можно исправить в патче, чтобы не перезагружать систему из-за того, что какая-то не очень важная программа дала сбой. [edit] А, вижу, вы уже занимаетесь этим — как скоро можно ждать патч?
harrids
Guest
02.01.2018 03:09:00
Все еще происходит на версии 4.4.14.5041698.
mcousins
Guest
17.12.2017 05:13:00
У меня это тоже есть...
unifiMynet
Guest
15.12.2017 17:04:00
@UBNT-cmb,
У меня возникает проблема с аварийным дампом каждое 3 дня, использую:
У меня есть core-файл, который разархивируется без ошибок, скоро отправлю вам на почту. Спасибо!
harrids
Guest
15.12.2017 03:18:00
Все ещё происходит на версии 4.4.12.5032482.
В системном журнале теперь всего одна запись о сбое:
<11>1 2017-12-15T06:25:26+07:00 UniFiSecurityGateway3P system - - - system: Процесс упал, создаётся дамп памяти: core=/var/core/core-ubnt-util-20189-1513293926.gz свободного места=1157МБ занято=26%
Дампы памяти всё ещё повреждены.
jerrymcalister
Guest
08.12.2017 21:26:00
В последних заметках к версии прошивки 4.4.12 указано, что сбой ubnt-util исправлен. Но ничего не сказано о проблеме с большими дампами памяти, которые gzip сжимает и сохраняет дольше 120 секунд, из-за чего операционная система перезагружается. Интересно, собираются ли они это тоже чинить.
brajkovic
Guest
30.11.2017 14:28:00
Уже неделю-другую борюсь с одной и той же проблемой (сбои ubnt-util, частично записанные дампы памяти — полный набор) и уже не один раз связывался с поддержкой — не понимаю, как раньше не наткнулся на эту тему! Я применил исправление с sysctl, посмотрим, поможет ли оно.
Читая обсуждение по EdgeRouter, похоже, дело связано с SNMP, которым я и пользуюсь. Буду ждать исправления!