Actualment, els clústers de PC es consideren un alternativa rendible als computadors massivament paral·lels. En aquests sistemes, milers de components (processadors i/o discs durs) estan connectats mitjançant xarxes d'interconnexió d'altes prestacions. Entre les tecnologies de xarxa d'altes prestacions actualment disponibles per a construir clústers, InfiniBand (IBA) ha emergit com un nou estàndard d'interconnexió adient per als clústers. De fet, ha sigut adoptat per molts dels sistemes més potents construïts actualment (llista top500). A mesura que el nombre de nodes augmenta en estos sistemes, la xarxa d'inter-connexió també creix. Junt amb l'augment del nombre de components la probabilitat d'avaries augmenta dramàticament i, així, la tolerància a fallades en el sistema en general, i de la xarxa d'interconnexió en particular, esdevé una necessitat. Dissortadament, la major part de les estratègies d'encaminament tolerants a fallades proposades per a les computadores massivament paral·leles no poden ser aplicades perquè l'encaminament i les transicions de canal virtual en IBA són deterministes, cosa que impedix que els paquets defugen de les fallades. Per tant, és necessària una estratègia nova i eficaç per a tolerar fallades. Per això, aquesta tesi se centra a proporcionar mecanismes per proporcionar els nivells adequats de tolerància a fallades al encaminament en clústers de PC, especialment confeccionats per a les xarxes IBA. En aquesta tesi proposem i avaluem diversos mecanismes adients a les xarxes d'interconnexió per a clústers. El primer mecanisme per a proporcionar tolerància a fallades en IBA (al qual ens referim com encaminament tolerant a fallades basat en transicions, TFTR) consistix a usar de diverses rutes disjuntes entre cada parell de nodes origen-destí, i seleccionar-ne l'apropiada en el node font fent servir el mecanisme APM proporcionat per IBA. Consistix a migrar dinàmicament de les rutes afectades per la fallada a les rutes alternatives lliures de fallades. No obstant això, amb aquest fi, cal un algoritme eficient de encaminament capaç de proporcionar suficients rutes disjuntes, que a més garantisca l'absència de situacions de bloqueig. Definim un algoritme d'encaminament com eficient el que reduïx al mínim els recursos del sistema requerits i que es calcula d'una manera eficient en temps. Nosaltres tractem esta qüestió, en un segon esforç, proposant una metodologia d?encaminament tolerant a fallades i escalable (denominada SPFTR) per a xarxes IBA amb topologia de torus. Com a segona contribució d'esta tesi, proposem una metodologia tolerant a fallades simple i eficaç (denominada encaminament tolerant a fallades basat en alcanzabilitat, RFTR), que es pot aplicar a qualsevol topologia. RFTR compon les rutes alternatives unint fragments de rutes ja existents, d'una manera eficient en temps. Com ultima contribució, ens centrem en proporcionar tolerància a fallades basada en reconfiguració dinàmica. Proposem un mètode simple i ràpid de reconfiguració dinàmica de xarxa, denominat reconfiguració basada en èpoques (EBR). EBR garanteix una reconfiguració ràpida i l'absència de bloquejos però, en comptes d'evitar les situacions de bloqueig, el nostre mecanisme es basa en recuperacions regressives d?aquestes situacions de bloqueig. EBR funciona d'una manera asíncrona, no requerix recursos addicionals i es pot aplicar en qualsevol topologia. La major part de les propostes fetes en esta tesi són vàlides (sense cap modificació del maquinari) per a ser utilitzades en les tecnologies de xarxa comercials (principalment en xarxes IBA) usades actualment en clústers de PC, i poden tolerar dinàmicament un nombre raonable de fallades mentres la xarxa es mantinga connectada físicament.