[ Home | Liste | F.A.Q. | Risorse | Cerca... ]


[ Data: precedente | successivo | indice ] [ Argomento: precedente | successivo | indice ]


Archivio: openbsd@sikurezza.org
Soggetto: Re: [openbsd] problema hardware?
Mittente: Marco Munari
Data: Tue,  7 Mar 2006 01:26:34 +0100 (CET)
On Thu, 02 Mar 2006 11:26:52 +0100, Lorenzo Viola said:
...
>ho un bel problema, e spero che qualcuno mi possa dare qualche dritta

>ho un server web-email-db, in housing remoto, con openbsd 3.8,
>con un raid 1 IDE software

>da una settimana, ogni uno o due giorni, la macchina si pianta,
>e da remoto me la spengono e riaccendo...

con OpenBSD credo sia improbabile "accendere" da remoto, forse intendevi
dire resettano (con il classico  jmp FFFF:0000), per quanto riguarda
l'accensione remota (Wake On Lan, WOL) ci ho provato ed a quanto mi risulta
occorre che la macchina sia in stato S3 ACPI per ora sperimentale in OpenBSD
(e non funziona su nessuna macchina che avrei voluto poter accendere
da remoto, per ora le attivo con l'allarme RTC e si spengono da sole
dopo mezzora a seconda delle condizioni di load).

Se qualcuno e` riuscito nel WOL con OpenBSD comunichi pure l'hardware
che ha funzionato, ne va del risparmio energetico nazionale ;-)

PS: Rileggendo mi e` venito il dubbio che invece tu dicendo ``da remoto''
 intendessi che sei tu remoto e chiedi per telefono di premere il pulsante per
 spegnerla e riaccenderla... Be` questo e` altro ;)


>ho anche scritto un programma che fa il monitoraggio (salvando su mysql)
>dei parametri presi da sensorsd e li mette su un grafico, pero' vedo
>che i valori di temperatura di processore, chipset, corrente, velocita'
>ventole, etc. sono sempre normali, fino ad un minuto prima di ogni blocco

io avevo un server che si fermava per tutt'altro motivo, immancabilmente
dopo 5-15 giorni di funzionamento, improvvisamente si bloccava; era la RAM,
che passava anche memtest86 eseguito per un giorno e mezzo e con tutti
i test on, ma quando era inserita sul server causava il blocco
tardivo ed improvviso, ora lo stesso server ha uptime di decine di mesi.

A proposito sapete che in OpenBSD c'e` un panic forzato per eccessivo uptime?
Be`, io ho fissato anche quello.


>c'e' qualcuno che mi puo' suggerire cosa fare in questi casi ?

>ad esempio, se c'e' modo di salvare l'ultimo kernel panic, se c'e', in
>modo da
>poterlo leggere al successivo riavvio, o addirittura archiviarli...

se hai compilato il kernel con ddb (option DDB, e` in GENERIC per default),
puoi attivare `sysctl -w ddb.console=1 ddb.panic=1 ddb.log=1`
ma usarlo efficacemente non e` facile. Io lo uso anche per sbloccare
qualche panic, nel mio kernel ho aggiunto la funzione di tab completition
sui nomi di funzioni e variabili (altrimenti bisogna ricordarseli lettera
per lettera), comunque per usare DDB in tutte le sue potenzialita` bisogna
sapere il codice macchina (non solo l'assembly) ed avere dimestichezza
con la rappresentazione dei dati del kernel.

credo sia piu` comodo KGDB su seriale, ma questo non lo ho ancora usato.


>grazie
>        (Halley's comment.)


tornando alla question ide, i moderni IDE solitamente hanno una funzionalita`
S.M.A.R.T. credo poco nota, e` anche ben supportata dal comando
 atactl di sistema in OpenBSD.

io ho i seguenti file che contengono:

rc.local:
/sbin/atactl /dev/wd0 smartenable


etc/weekly:
...
echo "atactl /dev/wd0c readattr"
/sbin/atactl /dev/wd0c readattr
echo "atactl smartread"
/sbin/atactl /dev/wd0c smartread
echo "atactl smartreadlog summary"
/sbin/atactl /dev/wd0c smartreadlog summary


per riferimento
l'output di readattr su un mio buon server e` il seguente

Attributes table revision: 16
ID      Attribute name                  Threshold       Value   Raw
  3     Spin Up Time                      63            228     0x0000000017c9
  4     Start/Stop Count                   0            212     0x000000004055
  5     Reallocated Sector Count          63            250     0x00000000001f
  6     Unknown                          100            253     0x000000000000
  7     Seek Error Rate                    0            253     0x000000000000
  8     Seek Time Performance            187            253     0x000000008941
  9     Power-on Hours Count               0            231     0x000000004640
 10     Spin Retry Count                 157            253     0x000000000000
 11     Unknown                          223            253     0x000000000000
 12     Device Power Cycle Count           0            253     0x00000000007b
192     Power-off Retract Count            0            253     0x000000000000
193     Load Cycle Count                   0            253     0x000000000000
194     Temperature                        0            253     0x000000000023
195     Unknown                            0            253     0x00000000217d
196     Reallocation Event Count           0            251     0x000000000002
197     Current Pending Sector Count       0            253     0x000000000001
198     Off-line Scan Uncorrectable Sect   0            244     0x000000000009
199     Ultra DMA CRC Error Count          0            199     0x000000000000
200     Unknown                            0            253     0x000000000000
201     Unknown                            0            253     0x000000000011
202     Unknown                            0            253     0x000000000000
203     Unknown                          180            253     0x000000000038

questo dato sopra mi preoccupa un po', ho 56 ed il limite e` 180
potrebbero essere gradi Fahrenheit, 180 F = 82,2 C, ma 56 F (che e` il
campionamento attuale) sono solo 13 C, settimana scorsa erano 20 C...
anche io lo definirei unknown :-) come dato.

204     Unknown                            0            253     0x000000000000
205     Unknown                            0            253     0x000000000000
207     Unknown                            0            253     0x000000000000
208     Unknown                            0            253     0x000000000000
209     Unknown                            0            197     0x000000000000
 99     Unknown                            0            253     0x000000000000
100     Unknown                            0            253     0x000000000000
101     Unknown                            0            253     0x000000000000



sul mio portatile IDE (normale Parallel ATA) i dati sono i seguenti:

Attributes table revision: 16
ID      Attribute name                  Threshold       Value   Raw
  1     Raw Read Error Rate               62            100     0x000000000000
  2     Throughput Performance            40            100     0x000000000000
  3     Spin Up Time                      33            121     0x001100000001
  4     Start/Stop Count                   0            100     0x0000000005a3
  5     Reallocated Sector Count           5            100     0x000000000000
  7     Seek Error Rate                   67            100     0x000000000000
  8     Seek Time Performance             40            100     0x000000000000
  9     Power-on Hours Count               0             78     0x0000000025fa
 10     Spin Retry Count                  60            100     0x000000000000
 12     Device Power Cycle Count           0            100     0x0000000002b8
191     Unknown                            0            100     0x000000000000
192     Power-off Retract Count            0             99     0x00000000016b
193     Load Cycle Count                   0             45     0x0000000879b7
194     Temperature                        0            144     0x003500080026
196     Reallocation Event Count           0            100     0x000000000001
197     Current Pending Sector Count       0            100     0x000000000000
198     Off-line Scan Uncorrectable Sect   0            100     0x000000000000
199     Ultra DMA CRC Error Count          0            200     0x000000000000


Saluti,
MARco
-- 
http://xref.mm.homeunix.org:8380/~u17420.23789/mail/,it
x(t),y(t) = th(3t-34.5)*e^[-(3t-34.5)^2]/2-4.3+e^(-1.8/t^2)/(.8*atg(t-
3)+2)(t-1.8)-.3th(5t-42.5),(1.4e^[-(3t-34.5)^2]+1-sgn[|t-8.5|-.5]*1.5*
|sin(pi*t)|^[2e^(-(t-11.5)^2)+.5+e^(-(.6t-3.3)^2)])/(.5+t)+1  ; 0<t<14




[ Home | Liste | F.A.Q. | Risorse | Cerca... ]

www.sikurezza.org - Italian Security Mailing List
(c) 1999-2005