Deduplicação no ZFS

Uma nova e interessante característica no ZFS é a deduplicação.

Deduplicação é a verificação e remoção de dados duplicados. Usa-se referência para o local que contém a os dados únicos. Há computado um checksum para obter-se uma assinatura do conjunto de dados e poder compara-los.

A deduplicação pode ser feita no nível de arquivos, blocos de dados e conjuntos de bytes.
No ZFS ela é feita nos blocos de dados e há opções para desabilita-lo para determinados diretórios em que não seria interessante utiliza-la.
Assim que eu tiver mais tempo, finalizar todas as questões do mestrado, submeter os artigos e ter ficado longe do computador por mais de uma semana, pretendo instalar esta versão do ZFS na minha máquina virtual com OpenSolaris e verificar como a deduplicação funciona e se há ganho de utiliza-la em partições de dados com base de dados de sequências genéticas.

One thought on “Deduplicação no ZFS

  1. … eu faço isso. o.o mas manualmente.

    tenho um shell script que move arquivos para uma pasta, e nomeia ele o seu md5, e cria um link com o nome do arquivo (que nao esta mais ali) para o md5. se o arquivo ja estiver na pasta, ele remove e cria o link.

    o shell script chama o md5sum, mas poderia chamar o sha1sum. eu posso inclusive particionar esses arquivos em N pastas, sem perder os links. e, de graça, ganho verificacao de integridade.

    mas cuidado: verificaçao automatica de checksums diminui a performance. isso nao da certo para se usar online. mas vc poderia usar entre rodar o programa uma vez, e outra.

    e, so da mesmo certo se vc tiver arquivos pequenos. tipo, um arquivo pra cada pequena sequencia genetica. pq dai a probabilidade de existirem arquivos iguais aumenta. se vc tiver um unico arquivao (ou um pequeno numero de arquivos grandes), vc vai so perder tempo..

    agora, se realmente uma boa % dos arquivos forem eliminados, vc ganha memoria ram e passa menos tempo acessando o disco.

    .. se bem que. li agora, nao eh feita nos arquivos? nossa.

    poxa, que show, o.o

    entao aparentemente vc tem mto a ganhar mesmo com arquivos grandes :)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s