Como solucionar problemas de Heartbeat? (Oracle RAC) | GPO (Grupo de Profissionais Oracle)

Este tópico contém 9 respostas, 2 vozes e foi atualizado pela última vez 15 anos, 4 meses atrás por vieri.

Visualizando 10 posts - 1 até 10 (de 10 do total)

Autor

Posts
14 de julho de 2010 às 5:30 pm #95049
antonioDBA
Participante
Graça e Paz a Todos!

Gostaria de compartilhar com vocês um problema que venho enfrentando há um certo tempo em meu ambiente Oracle RAC: HEARTBEAT.

Ex.:

WARNING: clssnmPollingThread: node orarac4 (4) at 50% heartbeat fatal, eviction in 13.740 seconds
WARNING: clssnmPollingThread: node orarac1 (1) at 75% heartbeat fatal, eviction in 7.140 seconds
WARNING: clssnmPollingThread: node orarac3 (3) at 75% heartbeat fatal, eviction in 7.470 seconds
WARNING: clssnmPollingThread: node orarac1 (1) at 75% heartbeat fatal, eviction in 6.150 seconds
WARNING: clssnmPollingThread: node orarac3 (3) at 75% heartbeat fatal, eviction in 6.480 seconds
WARNING: clssnmPollingThread: node orarac4 (4) at 75% heartbeat fatal, eviction in 6.740 seconds

– Vale ressaltar que este warning sempre é registrado no arquivo OCSSD.LOG após o reboot do nó.
– Já abri chamado com o suporte da Oracle, entretanto, a 1 mês não deram seu diagnóstico sobre o ocorrido.
– Entrei em contato com alguns Dba’s mais experientes, me sugeriram alterar os parâmetros disktimeout e misccount, entretanto, a oracle não recomanda o tal procedimento.
– Suspeitamos que poderia ser algum problema com o S.O. (RH 5) ou Switch, agora é evidente que é um problema de comunicação entre os nós.

Obs.:Só a título de conhecimento, o meu ambiente é constituído por:
ORACLE RAC 11g (4 NÓS) + STORAGE DELL (ASM) + S.O.: RED HAT 5.4.

* Então gostaria de saber se alguém já passou por este tipo de problema e como conseguiu sanar o mesmo?
14 de julho de 2010 às 6:47 pm #95050
vieri
Participante
Não existe nenhum problema com o heartbeat.

Ele está fazendo seu trabalho que é verificar a integridade e comunicação com as instâncias com compoem o cluster, e graças a ele o seu node está reiniciando, ele poderia se corromper se não reiniciasse… isso é uma defesa do cluster que pede pro S.O dar um tiro na testa do node problemático.

Esse “tiro” é chamado de “node eviction”, vc não tem que pesquisar como evitar do node reiniciar isso é apenas consequencia de um problema
que está ocorrendo, o máximo que irá conseguir será prolongar o tempo que ele espera para dar o boot, e em outra config do S.O irá conseguir que ele não reinicie, mas não é nada recomendável.

Para inicio de conversa, análise todos os log’s do servidor que é reiniciado e ve oque encontra de anormal.

Log do S.O /var/messages
Log da instância ALErt
Log do ASM
Log do Cluster

E da um top ou sar, e verifique os wait’s na instância que reinicia,
antes dele reiniciar.
15 de julho de 2010 às 11:05 pm #95075
vieri
Participante
postreply ?? where??
rs..
19 de julho de 2010 às 5:50 pm #95112
antonioDBA
Participante
Vieri, inicialmente gostaria de lhe agradecer pela atenção e ajuda!
- Em relação a sua posição sobre o problema: Na verdade o que me deixava intrigado é que todos os logs que você mencionou (Log do S.O, /var/messages, Log da instância Alert, Log do ASM, Log do Cluster) eu já havia analisado e os mesmos se encontravam sem logs de falha ou erros de banco. Como mencionei no post inicial, apenas o log do OCSSD.log que indicava um warning de Heartbeat.
- Entretanto esta semana, começou a ser gerado um log no messages com o seguinte erro:
Jul 19 08:09:01 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052452 should have started at 564052093
Jul 19 08:09:01 orarac1 iscsid: connect to 192.168.131.102:3260 failed (No route to host) * IP DA STORAGE ASM
Jul 19 08:09:01 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request took too long to execute: 400 ms (> 10 ms) (GSource: 0x39598c60)
Jul 19 08:09:01 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request was delayed 3590 ms (> 500 ms) before being called (GSource: 0x396760b0)
Jul 19 08:09:01 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052492 should have started at 564052133
Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request took too long to execute: 400 ms (> 10 ms) (GSource: 0x396760b0)
Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request was delayed 3580 ms (> 500 ms) before being called (GSource: 0x39676170)
Jul 19 08:09:02 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052532 should have started at 564052174
Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request took too long to execute: 400 ms (> 10 ms) (GSource: 0x39676170)
Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request was delayed 3580 ms (> 500 ms) before being called (GSource: 0x39676230)
Jul 19 08:09:02 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052572 should have started at 564052214
Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request took too long to execute: 400 ms (> 10 ms) (GSource: 0x39676230)
Jul 19 08:09:02 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request was delayed 3580 ms (> 500 ms) before being called (GSource: 0x396762f0)
Jul 19 08:09:02 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052612 should have started at 564052254
Jul 19 08:09:03 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for retransmit request took too long to execute: 410 ms (> 10 ms) (GSource: 0x396762f0)
Jul 19 08:09:03 orarac1 heartbeat: [5729]: WARN: Gmain_timeout_dispatch: Dispatch function for send local status was delayed 2830 ms (> 510 ms) before being called (GSource: 0x1ed323e0)
Jul 19 08:09:03 orarac1 heartbeat: [5729]: info: Gmain_timeout_dispatch: started at 564052653 should have started at 564052370
Jul 19 08:09:03 orarac1 heartbeat: [5729]: ERROR: Message hist queue is filling up (500 messages in queue)
- E no CRSD.LOG
  2010-07-19 08:15:25.391: [ OCRSRV][1253566784]th_select_handler: Retrieved procctx from ht. constr = [-1406092512] retval lht [1] Wait for disconnect processing to complete on prev client.
Os demais estão limpos.
Você já teve esse tipo de problema em seu ambiente? Alguma sugestão?

Muito obrigado!

19 de julho de 2010 às 8:32 pm #95117

vieri

Participante

Nunva vi esse erro mas me parece que o ASM perdeu conexão com
a storage… pode ser problema físico.
Oque aparece no alert e no log do asm dessa instance??

19 de julho de 2010 às 10:48 pm #95123

antonioDBA

Participante

Vieri, segue os log’s:

NOTE: ASM client CAMP11:CAMP1 died unexpectedly.

NOTE: Process state recorded in trace file /ora01/app/oracle/diag/asm/+asm/+ASM1/trace/+ASM1_ora_11363.trc

Trace dumping is performing id=[cdmp_20100719080654]

Starting background process ASMB

ASMB started with pid=22, OS id=9533

NOTE: ASMB process exiting due to lack of ASM file activity for 7 seconds

Log do Alert:
LMD0 (ospid: 11325): terminating the instance due to error 482

System state dump is made for local instance

ORA-1092 : opitsk aborting process

License high water mark = 24

Termination issued to instance processes. Waiting for the processes to exit

Instance termination failed to kill one or more processes

Exception [type: SIGSEGV, Address not mapped to object] [ADDR:0x4CD0] [PC:0x44CAB0F, kewa_dump_time_diff()+157]

Errors in file /ora01/app/oracle/diag/rdbms/camp1/CAMP11/trace/CAMP11_ora_8842.trc (incident=1118529):
ORA-07445: exception encountered: core dump [kewa_dump_time_diff()+157] [SIGSEGV] [ADDR:0x4CD0] [PC:0x44CAB0F] [Address not mapped to object] []

Você acredita que seja algum problema físico? Em qual componente?

22 de julho de 2010 às 6:45 pm #95183

vieri

Participante

/ora01/app/oracle/diag/asm/+asm/+ASM1/trace/+ASM1_ora_11363.trc

verificou oque tem nesse trace?

Componente de Rede:placas de redes do server, cabeamento, HBA.
Pede para alguem de redes fazer um check desses componentes.

24 de julho de 2010 às 12:25 am #95209

vieri

Participante

E ai conseguiu resolver ?

26 de julho de 2010 às 9:29 pm #95234

antonioDBA

Participante

Então vieri, até agora a única coisa anormal que descobrimos é que a versão instalada do Heartbeat não é a indicada pela Red Hat. Iremos fazer a atualização e depois eu posto se sanou o problema.

Muito obrigado!

27 de julho de 2010 às 6:42 pm #95248

vieri

Participante

Dificil ser isso hein..rs

mas tudo bem!

Good luck!

[]s

Visualizando 10 posts - 1 até 10 (de 10 do total)

Você deve fazer login para responder a este tópico.