dadv: (chuck)
[personal profile] dadv

Сегодня в пол-второго ночи одновременно испортились оба блока питания PWR-2700-AC в шасси Cisco 7606.
При этом супервизор сказал "у меня нет живых блоков питания, питания недостаточно для линейных карт, гашу их все".

#show power 
system power redundancy mode = redundant
system power redundancy operationally = non-redundant
system power total =     0 Watt
system power used =       744.66 Watts (17.73 Amps @ 42V)
system power available = 0 Watt
                        Power-Capacity PS-Fan Output Oper
PS   Type               Watts   A @42V Status Status State
---- ------------------ ------- ------ ------ ------ -----
1    PWR-2700-AC        2669.10 63.55  -      -      off
2    PWR-2700-AC        2669.10 63.55  -      -      off
                        Pwr-Allocated  Oper
Fan  Type               Watts   A @42V State
---- ------------------ ------- ------ -----
1    FAN-MOD-6HS         180.18  4.29  OK
                        Pwr-Requested  Pwr-Allocated  Admin Oper
Slot Card-Type          Watts   A @42V Watts   A @42V State State
---- ------------------ ------- ------ ------- ------ ----- -----
1    WS-X6724-SFP        125.16  2.98     -     -     on    off (FRU-power denied)
2    WS-X6748-SFP        254.94  6.07     -     -     on    off (FRU-power denied)
3    WS-X6748-GE-TX      325.50  7.75     -     -     on    off (FRU-power denied)
4    WS-X6704-10GE       295.26  7.03     -     -     on    off (FRU-power denied)
5    WS-SUP720-3B        282.24  6.72   282.24  6.72  on    on
6    WS-X6748-GE-TX      325.50  7.75   282.24  6.72  on    off (FRU-power denied)

Каждый из блоков питания получал ввод от мощного источника бесперебойного питания, один от APC8000, второй от General Electric. После сбоя оба стали индицировать OUTPUT FAIL, супервизор перезагрузился, выдав на консоль:

*Mar  3 06:43:23: %OIR-SP-6-INSPS: Power supply inserted in slot 1
*Mar  3 06:43:23: %C6KPWR-SP-2-PSFAIL: power supply 1 output failed.
*Mar  3 06:43:23: %C6K_POWER-SP-4-GLITCH: Recovered from glitch in system power supply.
*Mar  3 06:43:23: %OIR-SP-6-INSPS: Power supply inserted in slot 2
*Mar  3 06:43:23: %C6KPWR-SP-2-PSFAIL: power supply 2 output failed.
*Mar  3 06:43:23: %C6K_POWER-SP-4-GLITCH: Recovered from glitch in system power supply.
*Mar  3 06:43:26: %C6KPWR-SP-4-UNDERPOWERED: insufficient power to operate all FRUs in system.
*Mar  3 06:43:26: %C6KPWR-SP-2-INSUFFICIENTPOWER: Powering down all linecards as there is not enough power to operate all critical cards
*Mar  3 13:43:28: %SNMP-5-COLDSTART: SNMP agent on host M-19 is undergoing a cold start
*Mar  3 06:43:26: %C6KENV-SP-4-FANHIOUTPUT: Version 2 high-output fan-tray is in effect
*Mar  3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 1 power denied.
*Mar  3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 2 power denied.
*Mar  3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 3 power denied.
*Mar  3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 4 power denied.
*Mar  3 06:43:26: %C6KPWR-SP-4-POWERDENIED: insufficient power, module in slot 6 power denied.


Поставили в шасси другой блок питания вместо сбойных и 7606 заработала. Полшестого утра, пойду посплю немного.

Date: 2014-03-03 22:40 (UTC)
From: [identity profile] click0.livejournal.com
Повезло, что резерв был.

Date: 2014-03-03 22:52 (UTC)
From: [identity profile] dmarck.livejournal.com
вот да

Date: 2014-03-04 19:50 (UTC)
From: [identity profile] klepysik.livejournal.com
веселенькая ночка... я почему оба подохли? скачки напряжения?

Date: 2014-03-05 08:34 (UTC)
From: [identity profile] dadv.livejournal.com
> почему оба подохли? скачки напряжения?

Достоверно неизвестно. Предположительно, проглючил один из упсов, от чего один из двух БП сдох, 7606 мгновенно перекинула всю нагрузку на второй БП, который этого не выдержал. Оба БП в составе бандла были куплены новыми 9 лет назад и с тех пор не менялись.

Date: 2014-03-05 10:20 (UTC)
From: [identity profile] click0.livejournal.com
Вывод?
Раз в 3 месяца планово тестировать железо.
Поочередное отключение питания к каждому БП - одно из них.

Предусмотреть резервирование N+1, а отдельных узлов и железок до N+2.

Date: 2014-03-05 18:03 (UTC)
From: [identity profile] klepysik.livejournal.com
ну как раз пришло время поменять... я знаю упсы каждые 5-7 лет меняют...

Date: 2014-03-19 10:47 (UTC)
From: [identity profile] click0.livejournal.com
Очень похоже на деградацию памяти в блоках питания!
Тут (http://forum.nag.ru/forum/index.php?showtopic=93115) целая дискуссия о проблеме.

Date: 2014-03-19 17:10 (UTC)
From: [identity profile] dadv.livejournal.com
Память в блоках питания? Это шутка, я надеюсь.

Date: 2014-03-28 15:23 (UTC)
From: [identity profile] denis avgoor (from livejournal.com)
Бывает, странно что одновременно.

У меня в 65ой так умирал фан-2, т.е. он не выключался, но шасси считало что он фан-1 и оба супа уходили в rommon. Забавняшка.

Profile

dadv: (Default)
Choose your future

July 2024

M T W T F S S
12 34567
891011121314
15161718192021
22232425262728
293031    

Tags

Style Credit

Powered by Dreamwidth Studios