Gerenciamento de arquivos com os comandos do sistema de arquivos hadoop
Video: Gerenciamento de Usuários e Grupos 02 - Arquivos group e gshadow, comandos id e groups
Conteúdo
- Video: gerenciamento de usuários e grupos 02 - arquivos group e gshadow, comandos id e groups
- Video: sistemas operacionais capítulo 6 sistema de arquivos - parte 1
- Video: comando fsck - verificar e corrigir erros em discos e sistemas de arquivos no linux
- Video: comandos básicos linux 09 - mkdir, rmdir, rm -r - manipulação de diretórios
HDFS é uma das duas principais componentes do Hadoop framework- o outro é o paradigma computacional conhecido como MapReduce. UMA sistema de arquivos distribuídos é um sistema de arquivos que gerencia o armazenamento através de um cluster em rede de máquinas.
HDFS armazena dados em blocos, unidades cujo tamanho padrão é de 64 MB. Arquivos que você deseja armazenados no HDFS precisam ser quebrados em pedaços de blocos de tamanho que são então armazenados de forma independente em todo o cluster. Você pode usar a linha de comando fsck para listar os blocos que compõem cada arquivo no HDFS, como segue:
% Hadoop fsck / -limas -blocos
Porque Hadoop é escrito em Java, todas as interações com HDFS são geridos através da API Java. Tenha em mente, porém, que você não precisa ser um guru Java para trabalhar com arquivos no HDFS. Várias interfaces Hadoop construídas em cima da API Java estão agora em uso comum (e esconder Java), mas o mais simples é o de linha de comando interface- usar a linha de comando para interagir com HDFS nos exemplos fornecidos.
Você acessar o shell do sistema de arquivos Hadoop executando uma forma do comando hadoop. Todos os comandos do Hadoop são invocados pelo script bin / hadoop. (Para obter uma descrição de todos os comandos do Hadoop, executar o script Hadoop sem especificar quaisquer argumentos.) O comando hadoop tem a sintaxe
hadoop [--config confdir] [COMANDO] [GENERIC_OPTIONS] [COMMAND_OPTIONS]
o -config confdir opção substitui o diretório de configuração padrão ($ HADOOP_HOME / conf), Então você pode facilmente personalizar sua configuração do ambiente Hadoop. As opções de genéricos e opções de comando são um conjunto comum de opções que são suportadas por vários comandos.
comandos de arquivo Hadoop shell do sistema (para interfaces de linha de comando) levam identificadores de recursos uniformes (URIs) como argumentos. UMA URI é uma cadeia de caracteres que é usado para identificar um nome ou um recurso web.
A cadeia pode incluir um Nome do esquema - um qualificador para a natureza da fonte de dados. Para HDFS, o nome do esquema é hdfs, e para o sistema de arquivos local, o nome do esquema é o arquivo. Se você não especificar um nome de esquema, o padrão é o nome do esquema que está especificado no arquivo de configuração. Um arquivo ou diretório no HDFS podem ser especificados em uma maneira totalmente qualificado, como neste exemplo:
hdfs: // namenodehost / pai / filho
Ou pode ser simplesmente / pai / filho, se os pontos do arquivo de configuração para hdfs: // namenodehost.
Video: Sistemas Operacionais Capítulo 6 Sistema de Arquivos - Parte 1
O sistema de arquivos comandos shell Hadoop, que são semelhantes aos comandos de arquivos Linux, tem a seguinte sintaxe geral:
Hadoop HDFS dfs -file_cmd
Os leitores com alguma experiência Hadoop prévia pode perguntar: “Mas o que sobre o comando hadoop fs?” O fs comando é obsoleto na série liberação Hadoop 0.2, mas ele ainda trabalhar em Hadoop 2. Use dfs HDFS em vez de.
Como você poderia esperar, você usa o mkdir comando para criar um diretório no HDFS, assim como você faria no Linux ou em sistemas operacionais baseados em Unix. Embora HDFS tem um diretório padrão de trabalho, / User / $ USER, Onde $ USER é seu nome de usuário de login, você precisa criá-lo usando a sintaxe
$ Hadoop HDFS dfs -mkdir / user /login_user_name
Por exemplo, para criar um diretório chamado “Joanna”, execute este mkdir comando:
$ Hadoop HDFS dfs -mkdir / user / Joanna
Usar o Hadoop colocar comando para copiar um arquivo do seu sistema de arquivos local para HDFS:
$ Hadoop hdfs dfs -put nome do arquivo /do utilizador/login_user_name
Por exemplo, para copiar um arquivo chamado data.txt a este novo diretório, execute o seguinte colocar comando:
$ Hadoop HDFS dfs -put data.txt / user / Joanna
Execute o ls comando para obter uma listagem de arquivo HDFS:
$ hadoop HDFS dfs -ls .Found 2 itemsdrwxr-xr-x - Joanna supergrupo 0 2013/06/30 00:25 / utilizador / Joanna-rw-r - r-- 1 Joanna supergrupo 118 2013/06/30 12: 15 /user/joanna/data.txt
O arquivo listando-se decompõe como descrito nesta lista:
A coluna 1 mostra o modo de arquivo ( “D” para o diretório e “-” para o arquivo normal, seguido pelas permissões). Os três tipos de permissão - ler (r), gravação (w), e executar (x) - são os mesmos que você encontra em sistemas baseados em Unix Linux e. A permissão de execução para um arquivo é ignorado porque você não pode executar um arquivo no HDFS. As permissões são agrupadas por proprietário, grupo e público (todos os outros).
Coluna 2 mostra o fator de replicação para arquivos. (O conceito de replicação não se aplica aos diretórios.) Os blocos que compõem um arquivo no HDFS são replicados para garantir tolerância a falhas. o factor de replicação, ou o número de réplicas que são mantidos para um arquivo específico, é configurável. Você pode especificar o fator de replicação quando o arquivo é criado ou mais tarde, por meio de sua aplicação.
Video: Comando fsck - Verificar e Corrigir erros em Discos e Sistemas de Arquivos no Linux
Colunas 3 e 4 mostram o arquivo proprietário e grupo. Supergrupo é o nome do grupo de superusuários, e uma superusuário é o utilizador com a mesma identidade que o processo NameNode. Se você iniciar o NameNode, você é o superusuário por agora. Este é um grupo especial - usuários regulares terão seus IDs de usuário pertencer a um grupo, sem características especiais - um grupo que está simplesmente definido por um administrador do Hadoop.
Coluna 5 mostra o tamanho do arquivo, em bytes, ou 0 se for um diretório.
Video: Comandos Básicos Linux 09 - mkdir, rmdir, rm -r - Manipulação de diretórios
Colunas 6 e 7 mostram a data e hora da última modificação, respectivamente.
Coluna 8 mostra o nome não qualificado (o que significa que o nome do esquema não é especificado) do arquivo ou diretório.
Use o comando get Hadoop para copiar um arquivo do HDFS para o seu sistema de arquivos local:
$ Hadoop hdfs dfs -get nome do arquivo /do utilizador/login_user_name
Usar o Hadoop rm comando para excluir um arquivo ou uma pasta vazia:
$ Hadoop hdfs dfs -rm nome do arquivo /do utilizador/login_user_name
Usar o Hadoop dfs HDFS -Socorro comando para obter ajuda detalhada para cada opção.