Bonjour,
Comme vous avez pu le voir, le site, le forum, mumble et le serveur minecraft étaient indisponibles.
Suite à un problème au niveau du système d'exploitation qui a affecté le serveur Web, ce dernier ne fonctionnait plus. Le forum et le site étaient donc "en panne". J'ai donc prévenu tout le monde via mumble et le jeu qu'un redémarrage était nécessaire, j'ai également créé une page sur un autre serveur afin de pouvoir vous communiquer des informations =>
http://zplay.eu
Le redémarrage ne pouvant s'opérer de manière automatique en utilisant la fonction "redémarrer" (parce que le problème affectant le système aurait laissé la séquence de redémarrage dans un état du genre "attente de démontage de la partition /cache" sauf que comme elle marchait plus, ça serait resté bloqué). J'ai donc demandé via la console d'administration d'Online.net (notre hébergeur) un redémarrage électrique de la machine, sauf que ça n'a pas fonctionné. J'ai immédiatement ouvert un ticket auprès de l'hébergeur pour les prévenir.
Ce matin, ayant un peu de temps, j'ai pu constater que la machine était opérationnelle de nouveau, le ticket ayant été traité, le service IPMI de la machine (administration à distance physique via le réseau) était en panne, ils ont pu faire le redémarrage.
Les adresses de Zcraft ne fonctionnent pas forcément encore pour tout le monde, pour une meilleure communication, ne sachant pas quand le retour aurait lieu, j'ai redirigé toutes les adresses zcraft.fr vers le site zplay.eu pour que les gens ne soient pas dans le flou, ne voyant plus rien fonctionner. Cela augmente le délai du retour à la normale vu que la modification se fait au niveau du DNS de zcraft.fr et que ce dernier était réglé avant un temps de propagation de 24h. Cela veut dire que la modification que j'ai effectuée ne serait prise en compte dans le pire des cas, qu'au bout de 24h, que ce soit dans le cas de départ ou de fin de l'incident ! Ce délai a été réduit à 2h pour d'éventuels besoins futurs
.
Il n' y a eu aucun rollback, j'ai pu arrêter le serveur minecraft et la base de données proprement avant de redémarrer sauvagement, la machine fonctionnant très bien mis à part la partition défectueuse. Au cas où la panne eut été plus grave, le serveur est sauvegardé à 100% toutes les nuits, sur le petit serveur sur lequel sont enregistrées les images de la carte intéractive.
Normalement le service est de nouveau opérationnel :
- Site
- Forum
- Mumble
- Minecraft
- i.zcraft.fr
Détail technique de la panne (pour ceux que ça intéresse) :
Le serveur possède plusieurs systèmes de fichiers pour compartimenter un peu les données. Un pour minecraft, un pour la base de données, un en réseau pour les images de la carte intéractive etc... et un qui sert à mettre en cache les images de la carte intéractive pour éviter d'aller les chercher sans cesse sur le réseau.
C'est cette partition de cache qui semblait défectueuse hier. Les données dessus ne sont pas gardées plus de
15 MINUTES !. Le logiciel du serveur web se servant de cette partition, une bonne connaissance du fonctionnement d'un système Linux vous fait pressentir qu'une partition foireuse, ça vous bloque les processus qui s'en servent. GAGNÉ. Impssoble d'arrêter le serveur web, le site et le forum ne répondaient plus. Et le redémarrage n'aurait pas pu se faire étant donné qu'il n'aurait pas pu
tuer (oui, on dit comme ça, c'est même avec la commande
kill que ça se fait) les processus.
Après le redémarrage, je n'ai eu qu'à reformater la partition pour être certaine de ne pas avoir de problème.