Difference between revisions of "NDPF TODO List"

From PDP/Grid Wiki
Jump to navigationJump to search
m
Line 1: Line 1:
== Enable backup on hooimijt ==
 
 
Het startup script staat er wel (/etc/init.d/adsm), maar zodra did gestart wordt gaat de
 
load naar oneindig omdat de tsmc eerst een expiry van de /export/cache gaat doen. Dat duurt
 
volgens mij een paar uur waarin de hele machine unresponsive is (het tsmc process zit dan al die tijd in een "D" state). Daar kan de rest van de farm dus niet tegen.
 
 
Eerst even bij SARA de oude backup laten moven, en dan nog eens proberen op een rustig moment? (niet weggooien! :-)
 
 
== Upgrade Torque ==
 
New version (2.0) of Torque is out.  This one includes TMPDIR patch IIRC.
 
Time to upgrade.  Misschien moeten we JT de Torque server laten
 
vernietigen.
 
De laatste RPMs hiervoor (van SteveT met de TMPDIR patches &c) staan nu op
 
  http://hepunx.rl.ac.uk/~traylens/rpms/torque
 
maar SteveT waarschuwde nog wel: "The newer ones have had less than a day of testing so be warned."
 
 
VOor SteveT's versie zijn de startup scripts verschillend (niet meer een enkele "/etc/init.d/pbs",
 
maar een setje "pbs_{mom,sched,sever}". Daarop moeten de startup configs in de Quattor config
 
wel worden aangepast (nu staat daar nog een manual override in de local/ config). Zie voor
 
de sources ook:
 
  http://www.gridpp.rl.ac.uk/viewcvs/viewcvs.cgi/torque/
 
 
  
 
== Check pool accounts ==
 
== Check pool accounts ==
Line 39: Line 17:
 
one more.
 
one more.
  
== Fixes needed for information published to BDII ==
 
There are a number of new attributes in the GlueVOView blocks that are not yet being published,
 
like the software dir and data dir.  This is going to require some serious quattor work and
 
is not a task to be taken lightly.
 
 
Also there is a warning in the GIIS monitor that our
 
publishing of teras.sara.nl as a close SE is failing some sanity checks.  This last one may
 
be a fault in the test, someone needs to looks carefully at this.
 
 
== Update of Resource Broker ==
 
== Update of Resource Broker ==
 
See [http://www.listserv.rl.ac.uk/cgi-bin/webadmin?A2=ind0509&L=lcg-rollout&F=&S=&P=34762 message on LCG-ROLLOUT]
 
See [http://www.listserv.rl.ac.uk/cgi-bin/webadmin?A2=ind0509&L=lcg-rollout&F=&S=&P=34762 message on LCG-ROLLOUT]
Line 52: Line 22:
 
See [http://www.listserv.rl.ac.uk/cgi-bin/webadmin?A2=ind0510&L=lcg-rollout&F=&S=&P=391 message on LCG-ROLLOUT]
 
See [http://www.listserv.rl.ac.uk/cgi-bin/webadmin?A2=ind0510&L=lcg-rollout&F=&S=&P=391 message on LCG-ROLLOUT]
  
== hooibaal OS upgrade ==
+
== ganglia monitoring multicast ==
"hooibaal" is nu de laatste RH73 machine  :-)
+
ganglia does not yes work across the various subnet due to some off multicast problems
 
+
(although deel has the proper "router pim" and other magic statement).  
== ganglia monitoring ==
+
Need to investigate on deel and monitor some of the multicast traffic.
ganglia monitoring op tbn06 is zo goed als dood. Tijd voor een nieuwe
 
machine die ganglia/syslog/auditing op zich gaat nemen. Dat moet maar een 'nieuwe'
 
bak zijn (en geen oude pizza0 class doos).
 
 
 
  
== Install GEANT4 VO ==
 
Contact Patricia Mendez Lorenzo
 
  
 
== R-GMA updates ==
 
== R-GMA updates ==
 
zie [ http://goc.grid.sinica.edu.tw/gocwiki/R-GMA_server_upgrade_-_Patch_%23530 GOC wiki page]
 
zie [ http://goc.grid.sinica.edu.tw/gocwiki/R-GMA_server_upgrade_-_Patch_%23530 GOC wiki page]

Revision as of 17:37, 26 May 2006

Check pool accounts

Apparently things can go wrong if we have e.g.

dteamsm01

and

dteam001

as pool accounts for 'dteamsm' and 'dteam' ... because 'dteamsm01' is a valid pool account for .dteam. Check and repair.

VOBOX installation

LCG now has an official "VOBOX" profile. We need to install one of these, evaluate it and based on what we see, maybe install one more.

Update of Resource Broker

See message on LCG-ROLLOUT

R-GMA GIN Update

See message on LCG-ROLLOUT

ganglia monitoring multicast

ganglia does not yes work across the various subnet due to some off multicast problems (although deel has the proper "router pim" and other magic statement). Need to investigate on deel and monitor some of the multicast traffic.


R-GMA updates

zie [ http://goc.grid.sinica.edu.tw/gocwiki/R-GMA_server_upgrade_-_Patch_%23530 GOC wiki page]