Introdução
Os dados estão em todos os lugares; na verdade, estamos agora no universo de "grandes dados", onde os sistemas de computação precisam lidar com imensa quantidade de dados para determinar certos padrões de comportamento. Apache Hadoop é um framework, que é projetado para lidar com esses enormes quantidades de dados.
Ao fazer Hadoop disponível como um serviço, HDInsight pode ajudar a gerenciar, analisar e informar sobre big data. Apache Hadoop usa Hadoop Distributed File System (HDFS) para fornecer armazenamento de dados confiável. O modelo de programação MapReduce é usado para processar e analisar os dados em paralelo.
HDInsight fornece um ambiente simples, fácil, escalável e eficiente em termos de custo. Quando HDInsight implanta um cluster, uma segunda headnode é adicionado aos clusters para aumentar a disponibilidade do serviço (ao contrário de implantações Hadoop clássicos).
O ecossistema Hadoop / HDInsight é visualizado abaixo.
Hadoop / HDInsight Ecosystem
Como HDInsight Gerencia e armazena dados
HDInsight usa armazenamento Azure Blob como o sistema de arquivos padrão. Clusters Hadoop são otimizados para a execução de tarefas computacionais MapReduce e pode ser descartado uma vez que as tarefas sejam executadas.
Para gerenciar os trabalhos do Hadoop, HDInsight usa Azure PowerShell.
Como Chegar Stared com Usando HDInsight
Para começar a usar HDInsight, visite o Portal de Gestão Azure emhttps://manage.windowsazure.com e faça login.
Depois que você estiver conectado, você será presenteado com a página inicial da sua conta.
Portal de Gestão Azure Homepage
Clica no link HDInsight à esquerda.
HDInsight link
Clique no link para "Criar um cluster HDinsight".
Criar um Cluster HDinsight
Forneça um nome de cluster e também especificar a senha para o "admin" função de usuário e clique em "Criar HDInsight Cluster".
Criar HDInsight Cluster
Depois de enviar as informações, o processo de criação do cluster Hadoop começa, que pode ser visualizado como abaixo.
Processo Hadoop Cluster Criação
Pode levar até 10 minutos para concluir o provisionamento. Uma vez completo, o painel vai olhar como abaixo.
Provisionamento completo
Clique na seta ao lado do nome do cluster e você será redirecionado para o painel de instrumentos HDInsight.
HEInsight Painel
Aqui podemos acompanhar como nosso cluster Hadoop está realizando. Podemos ver que o meu caso particular está usando 24 núcleos de um total possível de 170 núcleos HDInsight.
Depois que o cluster HDInsight foi provisionado, podemos agendar nossos trabalhos MapReduce. Um trabalho de MapReduce precisa de um programa de MapReduce (arquivo .jar) e insumos (se aplicável).
Azure PowerShell pode ser usado para executar trabalhos.
Resumo
Neste artigo, nós demos uma visão geral de HDInsight.
Trends is an amazing magazine Blogger theme that is easy to customize and change to fit your needs.