Des de l'aparició de les primeres bases de dades distribuïdes fins als actuals sistemes
de replicació moderns, la comunitat d'investigació ha proposat diversos
protocols per a administrar la distribució i replicació de dades, juntament amb
algorismes de control de concurrència per gestionar les transaccions en execució
en tots els nodes del sistema. Molts protocols estan disponibles per tant, cadascun
amb diferents característiques i rendiment, i garantint diferents nivells de coherència.
Per saber quin protocol de replicació és el més adequat, dos aspectes han
de ser considerats: el nivell necessari de coherència i aïllament (és a dir, el criteri
de correcció), i les propietats del sistema (és a dir, l'escenari), que determinarà el
rendiment assolible.

Pel que fa als criteris de correcció, la serialització d'una còpia és àmpliament
acceptada com el més alt nivell de correcció. No obstant això, la seua definició
permet interpretacions diferents pel que fa a la coherència de rèpliques. En
aquesta tesi, s'estableix una correspondència entre els models de coherència de
memòria, tal com es defineixen en l'àmbit de la memòria compartida distribuïda,
i els possibles nivells de coherència de rèpliques, definint així nous criteris
de correcció que corresponen a les interpretacions identificades de serialització
d'una còpia.

Una vegada seleccionat el criteri de correcció, el rendiment que podria obtenir un
sistema depèn en gran mesura de l'escenari, és a dir, la suma de tots dos l'entorn
del sistema i les aplicacions que s'executen en ell. Perquè l'administrador puga
seleccionar un protocol de replicació apropiat, els protocols disponibles han de
ser plenament i profunda coneguts. Una bona descripció de cada candidat és
fonamental, però un marc en comú és imperatiu per a comparar les diferents
opcions i estimar el seu rendiment en l'escenari donat. Aquesta tesi proposa un
model de caracterització precisa que ens permet descompondre els algorismes
en les interaccions individuals entre els elements significatius dels sistemes, així
com en algunes propietats subjacents, i associar cada interacció amb una política
específica que ha de regir-la. Més tard, utilitzem aquest model com a base per a
un repàs històric de l'evolució de les tècniques de replicació de bases de dades,
proporcionant així un estudi exhaustiu dels principals sistemes existents.

Tot i que un protocol de replicació específic pot ser la millor opció per a un escenari
concret, com els sistemes són dinàmics i heterogenis, és difícil que un
protocol únic siga contínuament l'elecció correcta, ja que es pot degradar o pot
no satisfer totes les necessitats. En aquesta tesi es proposa un metaprotocol que
suporta diversos protocols de replicació que segueixen diferents tècniques de replicació
i poden proporcionar diferents nivells d'aïllament. Amb aquest metaprotocol,
els protocols de replicació poden treballar simultàniament amb les mateixes
dades o ser seqüenciats per adaptar-se a entorns dinàmics.

Finalment es tenen en compte les restriccions d'integritat, que són àmpliament
utilitzades en bases de dades per definir les propietats semàntiques de les dades,
però són sovint oblidades en bases de dades replicades. S'analitzen els possibles
problemes que això pot implicar i s'ofereixen pautes senzilles per ampliar un
protocol perquè gestione adequadament els avortaments causats per violacions
d'integritat.