¿Qué es Hadoop?
Antes de hablar sobre Hadoop es
necesario hablar de Big Data, ¿Qué es la Big data? Es el término que se le da
para describir el gran volumen de datos, tanto datos estructurados como no
estructurado que llenan a las empresas cada día. Pero no hablamos solo del gran
volumen de datos como lo importante o que solo se deben de almacenar, sino que
lo verdaderamente importante en el Big Data es como se manejan los datos a
favor de la empresa ya que con esa gran cantidad de datos se pueden generar
ideas en base a los análisis de los mismos llevando a la empresa a tomar buenas
decisiones y que movimientos de negocios tomar, para la captura, gestión y
procesamiento de estos datos se necesitan herramientas convencionales, aquí
entra lo que es Hadoop.
Hadoop es un framework de código
abierto perteneciente a “Apache Foundation”1 que permite a las
empresas el procesamiento de grandes conjuntos de datos y el almacenamiento
distribuido de los mismos dando como resultado que las empresas u
organizaciones obtengan un conocimiento a partir de análisis de grandes
cantidades de datos ya sean estructurados o no estructurados y así poder
posicionarse con las exigencias que hoy en día los mercados tienen en términos
de capacidad y dinamismo.
Este framework que es considerado
uno de los más importantes para el Big Data nació como la iniciativa de Apache
Foundation para dar soporte a la programación MapReduce2 trabajando
con múltiples nodos en el cual cada uno es encargado de procesar una parte del
trabajo que se realizará al hacer una petición de grandes cantidades de
datos.
En resumen Hadoop nació como una
solución de código abierto al Big Data para resolver problemas asociados al
mismo convirtiéndose en el sistema más utilizado gracias a su fácil
almacenamiento de información, sus capacidades analíticas y sus consultas
complejas en bases de datos existentes. Hadoop incorpora herramientas de tipo
sqoop3, que son utilizadas para importar los datos estructurados en
el cluster de Hadoop o herramientas NoSQL que sirven para hacer el análisis de
los datos no estructurados.
¿Qué hace a Hadoop uno de los mejores en el
Big Data?
Hablamos de Hadoop y su propósito principal de almacenar grandes volúmenes de datos y la
consulta de los mismos, en este espacio hablaremos de las características de
porqué es tan bueno y para empezar debemos recalcar su arquitectura ya que
todas la maquinas que son parte del clúster de Hadoop actúan en equipo como si
fueran una sola y eso que cada una funciona de manera independiente a las
demás.
En la sección
anterior hablamos sobre el procesamiento distribuido de los datos en
Hadoop, tomando en cuenta que es una de las características principales del
framework, esto se logra a través de un esquema de almacenamiento
distribuido (HDFS) 4 y un tratamiento de estructurar los
datos en el cual cada nodo tratara con los datos propios como se había
hecho mención antes, da como resultado una alta escalabilidad en la
organización de los datos lo que permite que sea más sencillo y poco costoso el
querer aumentar la capacidad de almacenamiento y dar como resultado reducir el
tiempo de respuesta de las consultas.
Otras
características con las que cuenta hadoop son:
-Tolerancia a
fallos: la arquitectura de Hadoop se distribuye en una gran cantidad de
nodos por lo mismo se trata la tolerancia a fallos ya que si uno de los nodos
falla, las tareas del mismo son pasadas de manera transparente a un nodo par,
los datos en este son replicados automáticamente en diferentes máquinas esto
hace que la información nunca se pare y se puedan hacer de manera eficiente las
consultas dadas, los datos en el que suelen estar replicados en el HDFS están
con una “replicación 3”5 dado que la primera replicación se hace en
el mismo nodo, la segunda se sitúa en el equipo o nodo que no esté en el rango
de la primera réplica y la tercera se hace en el mismo rango de la segunda,
pero en un equipo o nodo diferente esto proporciona un buen equilibrio entre el
ancho de Banda por transferencia y la disponibilidad de los datos.
Flexibilidad: en el ámbito de la flexibilidad Hadoop tiene un buen
punto porque los datos no son procesados antes de su almacenamiento esto hace
que se pueda almacenar grandes cantidades de datos y no solo del mismo tipo,
sino que pueden ser diferentes como por ejemplo pueden ser de tipo texto, de
imagen o cualquier otro ya que su rango de tipos es variado y estos datos
pueden ser estructurados o no estructurados, se almacenan y luego se decide
cómo se van a utilizar.
Como última característica de
Hadoop es el costo ya que es relativamente bajo al ser un software de
código abierto y porque utiliza hardware convencionales para almacenar y
procesar la información.
Arquitectura
básica de Hadoop
Como
hemos visto, hadoop es un framework que nos ayuda a procesar grandes cantidades
de datos de manera distribuida, la arquitectura en la que se basa Hadoop es a
través de 4 módulos distintos que funcionan como puntos de conexión los cuales
son:
Commom
Utilities
Utilidades
comunes, para poder ejecutar Hadoop necesitamos una serie de librerías y
utilidades de java que son de ayuda para los componentes que se encuentran
dentro del clúster de hadoop o mejor dicho, de los elementos que forman parte
del grupo que están compartiendo sus recursos en un procesamiento distribuido
como ser YARN, MapReduce y HDFS.
YARN
Framework
Como
Hadoop es un sistema que se distribuye en distintas maquinas, debe haber un
responsable dirigir o administrar los recursos, YARN es el gestor de estos
recursos y lo hace de una manera adecuada y eficiente en todas las máquinas,
este sirve como un marco o entorno en el que marcha o se ejecuta MapReduce y no
solo se encarga de hacer la gestión de recursos sino que también hace
programación de trabajos con el objetivo de maximizar los procesamientos y lo
hace a través de una partición de tareas haciendo varias tareas pequeñas y
asignándolas a distintos esclavos del clúster de Hadoop evitando así los
grandes trabajos.
El
YARN se caracteriza por ser multi Alquiler lo que significa que solo un modelo
de ese software, que sirve como pauta, se ejecuta en el servidor y da cabida a
varios inquilinos los cuales son un conjunto de usuarios que comparten un
acceso, pero pueden tener distintos privilegios a esa instancia que se le hace
al software.
Entre
otras características tenemos que YARN cuenta con escalabilidad lo que
significa que puede ser más grande y no perder su calidad, también cuenta con
la utilización de clústeres y compatibilidad.
HDFS
(Distributed Storage)
Almacenamiento
distribuido, elemento pilar para Hadoop para poder almacenar grandes cantidades
de datos y mantener una copia de estos, a lo que se le denomina replicación de
datos, que garantiza a los usuarios una disponibilidad inmediata a estos, HDFS
cuenta con una estructura que es tolerante a fallas así que un dato que viaja a
través de red puede llegar a su destino por varias rutas lo que significa que
si en una de ellas encuentra una falla, de inmediato toma otra ruta para evitar
la pérdida de este contenido, esto con el objetivo reducir a lo más mínimo el
número de afectados.
HDFS
hace un almacenamiento a nivel de nodos y cada uno le distribuye una cantidad
igualitaria para reducir el tráfico de grandes cantidades de datos aumentando
así su velocidad en el procesamiento, aquí es donde lo procesos MapReduce se
apoyan para poder paralelizar el procesamiento de datos lo que sencillamente es
poder ejecutar una tarea de manera simultánea.
MapReduce
(Distributed Computation)
Mapa
reducido, esto es un algoritmo que hace referencia al modelo YARN. El objetivo
principal de MapReduce es llevar a cabo un procesamiento distribuido en
paralelo que es lo que le permite a Hadoop ser eficiente con su velocidad, una
Big data elimina un procedimiento en serie y se basa en un procedimiento en
paralelo masivo porque de esta manera logra analizar los datos en grandes
volúmenes o cantidades de manera rápida.
Este
se divide en dos fases:
1. Tarea
de mapa:
RecordReader se
encarga de facilitar parejas clave-valor con una función Map (). La clave es la
información de la ubicación y el valor son los datos de esta.
Mapa:
función
determinada por el usuario para procesar las tuplas dadas por el lector de
registros.
Combinador:
sirve
para agrupar los datos en el flujo de trabajo del mapa el cual es opcional.
Particional:
encargado de recopilar la clave-valor obtenidos y los fragmenta.
2. Reducir
tarea:
Shuffle
and Sort: en esta fase toman los datos y se ordenan
de una manera adecuada para el siguiente proceso y puede no ser necesaria.
Reducir:
las claves y valores obtenidas por la función Map() pasan a ser reducida
haciendo combinaciones entre ellas.
OutputFormat: una
vez que pasan los datos por el proceso de reducción donde las claves y
valores se combinan de alguna manera saliendo convertidos en una nueva
estructura de claves y valores.
Desafíos
que genera Hadoop
Es
grande la cantidad de desafíos a los que hay que someterse al abordar Hadoop ya
que este sirve como herramienta para obtener los grandes beneficios que ofrece
una Big data donde este término se refiere a los datos en grandes cantidades y
a la forma de analizar tanta cantidad de datos a una alta y muy eficaz
velocidad que sirve para poder explotar los recursos con los que cuenta una
empresa y así poder crear nuevos productos y servicios que por obvias razones,
para logar esa meta hay que enfrentar a esos desafíos y superarlos en su
totalidad.
Una
empresa que cuente con un sistema de información y tenga la intención de
mejorar su infraestructura para la manipulación de datos como almacenar,
recuperar, entre otras, puede incluir a Hadoop si dicha empresa maneja grandes
cantidades de datos y esto implica enfrentar ese gran reto ya sea con sistemas
que tengan los servidores en la nube que significa que las herramientas de
hardware no se encuentran en las instalaciones físicas de la empresa o bien en
un sistema on-premise que funciona de manera contraria, este cuenta con las
herramientas de alojan el software de trabajo dentro las instalaciones físicas
de la empresa.
Este
reto conlleva soluciones para las que hay que tener ciertas habilidades, entre
una de las soluciones tenemos a las ad hoc (para esto) que se basa en resolver
un problema determinado y su solución solo resuelve ese problema y no otro pues
no es algo general, un ejemplo es la respuesta en tiempo real que va de la mano
con la velocidad de la Big Data, esta respuesta en tiempo real es la parte más
vulnerable o punto débil de cualquier plataforma de código abierto
(OpenSource).
Hemos
hablado de incorporar Hadoop a una infraestructura de TI, pero también debemos
hablar sobre quienes hacen esta labor y materializan las soluciones, entonces,
uno de los primeros desafíos es la capacitación al personal, ya que existe una
escasez de técnicos que tengan las habilidades y experiencia en esta área y eso
lo vuelve otro punto débil en la incorporación de Hadoop que por otro lado es
un reto para el personal del área de tecnología con el que se cuenta para que
se especialicen o bien, surge una demanda laboral.
Una
vez teniendo a Hadoop como parte de nuestros recursos tecnológicos un desafío
determinante para la empresa es poder satisfacer o responder a las necesidades
para las que fue incorporado hadoop pues la intención es poner agarrar aquella
gran cantidad de datos y poder a analizarla de la mejor manera para saca todo
el provecho posible generando ganancias, y dándole valor a dicho empresa.
Trayendo
al frente los puntos más relevantes en los desafíos para incorporar Hadoop
podemos decir que la falta de experiencia o escasez de conocimientos, la
integración de la plataforma a nuestra infraestructura de TI y la extracción
del valor que se le da a la empresa son los principales desafíos por su nivel
de complejidad y eso hace que Hadoop pierda su atracción pues no siempre Hadoop
será la opción principal o la única por lo que previo a tomar la decisión de
incorporar Hadoop se debe hacer uso de la razón para ver si en realidad se
necesita un gran procesamiento y análisis de datos.
Estado
actual de Hadoop
Hadoop
a los ojos del mundo informático ha ido creciendo poco a poco hasta convertirse
en una de las mejores opciones para Big Data y el procesamiento de datos a bajo
costo y alta disponibilidad que dispone este es lo que ha atraído a muchas
empresas o grupos para elegirse sobre la competencia como muchas han de saber
la escalabilidad de Hadoop es casi infinita, pero con un riesgo de mucho
consumo de datos en ella, pero ¿a qué se debe esto? Pues esto se basa en que Hadoop solo tiene que agregar más nodos para gestionar más datos y no ocupa de
un sistema muy complicado para eso por eso es que se considera uno de los
grandes en la Big Data y su crecimiento en el manejo de ello.
Pero
la pregunta aquí es que está haciendo Hadoop para que estas empresas lo elijan
y eso es:
· Extensión
de almacenamiento de datos: 46%
· Exploración
y descubrimiento de datos: 46%
· Área
de almacenamiento de datos para almacenamiento e integración de datos: 39%
· Lago
de datos: 36%
· Archivo
consultable para datos no tradicionales (web, maquina, sensor, social): 36%
· Plataforma
computacional y san box para análisis avanzado: 33%
Esto
solo son datos que una empresa lograría resaltar con la implementación den
Hadoop, pero ahora surge otra pregunta ¿Cuáles son los beneficios? Pues esos
serian estos:
Como
se puede apreciar los beneficios no son algo que cualquier organización quiera
evitar más bien los busca constantemente y los que provee Hadoop son muy
interesantes en más son completamente más grandes que sus desventajas o
desafíos al elegirlo por lo que lo convierten en uno de los líderes en el
mercado de gestores de Big Data aparte de los gestores de bases de datos
relacionales convencionales que normalmente se usan a gran escala como seria
Oracle o MySQL.
¿Cómo es utilizado Hadoop?
Bueno
como saben uno siempre busca ver como se utiliza o cuales son la aplicación de
un software antes de aplicarlas en un proyecto o empresa como tal por eso ahora
explicaremos cuales serían los usos de Hadoop y aunque parezca repetitivo ya
los hemos mostrado, pero solo en estadística ahora explicaremos cada uno de
esas características y realmente como Hadoop las explota de las mejores
maneras.
1. Almacenamiento
y Archivo de datos de bajo coste: El gran costo accesible
que posee Hadoop con su Hardware lo hace muy favorable en el comercio del mismo
y que sea útil para almacenar y combinar datos en grandes cantidades como
transacciones, medios sociales, científicos, etc. Hadoop supo aprovechar esta
característica de bajo costo y lo aprovecho con la información que pueda no ser
decisiva en el momento dado pero que se requiera un análisis a profundidad en
fechas posteriores para su uso.
2. SandBox
para descubrimiento y análisis: Hadoop al ser diseñado para
trabajar con big data o con muchos tipos de datos en varias formas necesita
ejecutar algoritmos analíticos que le ayudan a realizar estas operaciones y el
enfoque SandBox les permite realizar pruebas para dar oportunidad para que las
personas comiencen algo nuevo y con la característica anterior con un costo
bajo que les permite avanzar y crecer a futuro.
3. Data
Lake(Lago de datos): Hadoop es uno de los pocos gestores que
usan Data Lake para su procesamiento de datos pues como dijimos antes Hadoop
trabaja con todo tipo de archivos y ahora entonces porque data lake y no un
almacén de datos convencional es porque un data lake almacena los datos sin
cambiar su formato original sin importar cuál sea y sin importar su estructura
algo que un almacén normal no lo permite y se ocupa una conversión y luego
retornarlo a su formato original volviendo tedioso el trabajo pues para esto es
que hadoop los usa para evitar todo eso.
4. Complementa
su almacén de datos: Como podemos observar Hadoop se sitúa a un
lado de los almacenes de datos convencionales y aunque no siga sus pasos aun
así tiene un estatus donde se encuentra ya que él se preocupa más que todo por
tener una plataforma completa que le permita a los usuarios y desarrolladores
ver y trabajar con los datos de maneras más fáciles y flexibles.
5. IoT y Hadoop: Primero que nada que es IoT (Internet Of Things ) ósea “Internet de las cosas” eso se refiere a la agrupación e interconexión de dispositivos y objetos a través de una red donde todos pueden comunicarse entre sí; Bueno y porque hablamos de esto es porque Hadoop que es usado como un almacén de datos en grandes o masivas cantidades permiten que hadoop sirva como descubrimiento y definición de patrones para monitorización para instrucciones prescriptivas.
NoSQL
Cuando
hablamos de NoSQL hablamos sobre la estructura
no relacional, esto quiere decir, que no cumplen los esquemas de
entidad-relación y no soportan operaciones de JOIN. Los NoSQL tienen una
eficiencia que nos permite guardar información y esto soluciona los problemas
de las bases de datos relaciones y gestionar los problemas de escalabilidad.
Esta necesidad se tuvo que implementar como empresas como Twitter, Facebook,
etc como aumentaban los usuarios tenían la posibilidad de subir información, no
solo las empresas hacen esto y se tenía que investigar una nueva estructura.
Otra cualidad que tienen los gestores de datos NoSQL es que no usa el método de
tablas, sino que otra forma de almacenamiento y sus formatos puede ser como
clave–valor, mapeo de columnas o grafos. Los desarrolladores trabajan con
innumerables cantidades de datos y están en constante evolución (estructurados,
semi estructurados, no estructurados y polimórficos).
FUNCIONALIDAD
Las
bases de datos NoSQL tiene la función de mover archivos y almacenarlos para
permitirnos a trabajar con grandes cantidades de información y así podemos
acceder a ella cuando lo necesitemos podemos decir que las bases
de datos NoSQL
centran sus funciones con base a:
● Escalabilidad horizontal: habilidad que ayuda al crecimiento de las bases de datos y
tiene la cualidad de no afectar su funcionamiento.
● La
nube: Los gestores de base de datos NoSQL tienen una unión fuerte
con la nube donde se puede trabajar con mucha seguridad, ya que su amplio
almacenamiento es vital, también la información cuando se necesite consultar
esta siempre a la hora que se ocupe.
● Uso
eficiente de los recursos: Como
van avanzando la tecnología las bases de datos NoSQL tiene un modelo de
flexibilidad para adaptarse a cualquier transición tecnológica quiere decir que
cualquier herramienta que se necesite no habrá problemas.
● Libertad
de esquema: El
sistema de bases de datos no son nada rígidas en su forma de almacenamiento y
también para modificar, si necesita hacer dicha modificación de un campo o tipo
de dato no hay problema al contrario de los SQL.
● Velocidad
de respuesta: se
mide por su latencia y las bases de datos NoSQL se preocupan en este aspecto,
su respuesta es muy eficiente.
● Índice:
Tanto los SQL y los NoSQL sus
gestores funcionan mediante índices para poder realizar sus consultas. Cabe
destacar que los NoSQL tiene un sistema de nodos este método se llama B-Tree
(Árbol-B), los nodos se mantienen balanceados y su búsqueda es mucho mas
rapida.
● Replican
información: Los
NoSQL replican su información en distintos servidores, quiere decir que los
datos se encuentran en diferentes lugares. Las formas en que se pueden
recopilar esta información son por medio de maestro-esclavo que mediante un
servidor principal les permite una copia de dicha información a los esclavos
cuando pidan dicha solicitud y la otra forma es peer to peer en esta la
información se replica en varios nodos como mucho 3 y consiste que si uno falla
están los otros nodo para apoyar y dar la información que se pide, esto ayuda a
que nunca se pierda dichos datos.
MARCAS DE BASES DE DATOS NOSQL
Las marcas
que nos podemos encontrar de gestores de bases de datos NoSQL son:
● Cassandra: Creado por Apache de tipo
clave-valor. Dispone de su propio lenguaje para crear sus consultas CQL. La
estructura de Cassandra está compuesta por Java esto quiere decir que esta
funciona en cualquier plataforma de tipo JVM.
● Redis:
Creada por Salvatore Sanfilippo y
Pieter Noordhuis con el soporte de VMWare. También es de tipo clave-valor su
forma de almacenamiento es como la de un arreglo grande tiene una una memoria
de almacenaje, los datos pueden ser cadenas, hashes, conjuntos de datos o
listas.
Un
factor bueno es que sus operaciones son atómicas y son persistentes, pero una
desventaja es que no se pueden hacer consultas solo se pueden insertar y ver
datos. Son compatible con Unix y Linux y sus derivados.
● MongoDB:
Una de las bases del momento es del
tipo orientada a documento el esquema libre esto quiere decir que cada entrada
puede ser de diferente con los otros tipos de registro almacenados. Para
almacenar esta información se usa el sistema BSON que es una evolución del
conocido JSON con la característica nueva de que puede almacenar datos
binarios.
● CouchDB:
Creado por Apache y está diseñado
con el lenguaje de Erlang que funciona para el sistema POSIX, incluyendo
también a UNIX y LINUX. Con su característica más importante el Restful HTTP
API que es una interfaz de programación web que se ajusta a las restricciones
del estilo arquitectónico REST y con JavaScript como lenguaje principal de
interacción. Con su almacenamiento de datos con un JSON, deja crear vistas que
es la combinación para retornar esos valores en un tipo de documento con el fin
de llegar a que couchDB sus operaciones son de tipo JOIN de SQL.
SEGURIDAD
La seguridad
se fortalece mediante usos de procesos adecuados para las consultas y tener un
control estricto. Herramientas especializadas para escanear vulnerabilidades a
las bases de datos NoSQL:
● Nessus: Analiza
vulnerabilidades y audita la configuración de datos en busca de fallos en su
sistema.
● NoSQL map:
Una herramienta de código libre hecha para Python está diseñada para la
detección de ataques inyectivos, audita y destruye las configuraciones predeterminadas
de las bases de datos y aplica también para aplicaciones web.
VENTAJAS Y DESVENTAJAS.
Si bien en
los últimos años se ha visto un incremento en la utilización de las bases de
datos NOSQL, todavía le falta madurez y funcionalidades, además, a diferencia
de las bases de datos SQL, que cuentan con un modelo muy generalizado, NOSQL
está diseñado para casos de uso muy específicos por lo que es probable que
terminemos utilizando diferentes bases, inclusive, llegar a utilizar una base
de datos SQL.
Otra desventaja
a tomar en cuenta es su gran tamaño, esto se debe a que las bases de datos
NOSQL no están pensadas para eliminar los datos duplicados, por lo cual, pueden
volverse masivas.
Algunas de
sus ventajas son: rendimiento, escalabilidad, flexibilidad y modelado de datos.
En rendimiento podemos mencionar que gracias a que los datos se suelen
almacenar en una sola base de datos y no es necesario múltiples consultas. En
la escalabilidad gracias a que en NOSQL es horizontal y no vertical. En
Flexibilidad, por su naturaleza no rígida es mucho más fácil probar ideas y
actualizaciones, aunque depender de las necesidades del proyecto.
TIPOS DE BASES DE DATOS NOSQL.
Hay una gran
variedad de base de datos NoSQL para cubrir necesidades y usos específicos, y
ellas se pueden categorizar de la siguiente manera:
- Jerarquico: Utilizan un modelo de árbol o padre-hijo para
almacenar los datos, este modelo en POO es llamado herencia.
- Clave-Valor: Son muy versátiles y flexibles, están diseñadas para
aplicaciones de alto rendimiento, y los valores que admiten son cualquier
tipo de objeto binario.
- De Documentos: Suelen almacenar JSON, XML y BSON, y son similares a
la base de datos clave-valor, con la diferencia principal, en como
procesan los datos, además, permite la indexación de los campos
principales para una rápida recuperación sin conocer la clase.
- Network o Grafos: Están basadas en teoría de grafos, sus datos se
almacenan a través de relaciones y nodos, donde los nodos son las
entidades y las relaciones describen como se vinculan los nodos. Su
principal utilidad es en base de datos donde sus datos tienden a cambiar
con frecuencia.
- Orientado a columnas: Son muy similares a las bases de datos relacionales,
con la principal diferencia en su modelo de almacenamiento de datos, no
siendo a través de las filas, sino en las columnas.
DIFERENCIAS
ENTRE SQL Y NOSQL.
- Flexibilidad en el esquema: En SQL los esquemas de datos
son poco flexibles, mientras que en NoSQL los esquemas de datos son
dinámicos, permitiendo almacenar sus atributos dependiendo de las
necesidades del proyecto.
- Escalabilidad: La escalabilidad en SQL es vertical, lo que significa
que, si la base de datos aumenta, se necesitara un hardware más potente. Y
en el caso de NoSQL, al ser de escalabilidad horizontal permite la
posibilidad de aumentar el rendimiento aumentando la cantidad de nodos
(servidores), es decir, por medio de la computación distribuida.
- SQL implementa las propiedades
conocidas como ACID (Atomicity, Consistency, Isolation and Durability)
mientras que NoSQL no implementa un mecanismo rígido de consistencia para
garantizar la consistencia de los datos, sino que usa un sistema llamado
Consistencia Eventual donde los cambios se propagan en un tiempo
determinado.
Referencias
1 Apache
Foundation es una organización sin fines de lucro creada para dar soporte a los
proyectos de software bajo la denominación de Apache.
2 MapReduce
es una técnica de procesamiento y un programa modelo computacional distribuida
basada en Java.
3 Sqoop es acronimo para “SQL-a-Hadoop” es una
herramienta de datos grande que ofrece la capacidad de extraer datos de
almacenes de datos no Hadoop.
4 HDFS es el acrónimo en inglés para sistema de archivos
distribuido de Hadoop.
5 Replicación es el proceso de copiar y mantener actualizados
los datos en varios modos de bases de datos ya sean persistentes o no.
Bibliografías
●
Hadoop: que es y para que se
utiliza (2020). UNIR, recuperado de:
https://www.unir.net/ingenieria/revista/que-es-hadoop/
●
Una forma de tolerancia a
fallos (2012). Datos intensos. Recuperado de:
http://datosintensos.blogspot.com/2012/10/una-forma-de-tolerancia-fallos-como-se.html
●
Que es el Apache Hadoop (2020),
Power Data, Redacción PowerData, recuperado de:
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/397377/qu-es-el-apache-hadoop
● Big Data (2020), Power
Data, Recuperado de:
https://www.powerdata.es/big-data
●
Qué es Hadoop y qué
vinculación tiene con el Big Data (2018), Thaís Balaguero,¿que es Hadoop?
recuperado de:
●
¿Qué es Hadoop?
(28 de septiembre de 2017), Abraham Requena Mesa, OpenWebinars. Recuperado de: https://openwebinars.net/blog/que-es-hadoop/
●
Hadoop ¿Qué es y
porque es importante? (2021), SAS. Recuperado de:
https://www.sas.com/es_mx/insights/big-data/hadoop.html
●
¿Qué es Hadoop? ¿Para qué se usa y como se usa? (marzo 5 del 2018),
Experto en Big Data. Recuperado de: https://expertoenbigdata.com/que-es-hadoop/
·
SAS
Institute Inc. (2021), hadoop-for-the-enterprise-107967.Recuperado de: https://www.sas.com/content/dam/SAS/en_us/doc/infographic/hadoop-for-the-enterprise-107967.pdf
● Fundamentos de las bases de datos
NoSQL. MongoDB Inc. (2021). Recuperado de: https://www.mongodb.com/es/nosql-explained
● What is a
REST API?. RetHat. (May 8, 2020). Recuperado de: https://www.redhat.com/en/topics/api/what-is-a-rest-api
● Bases de datos NoSQL. Qué son y
tipos que nos podemos encontrar. Acens. Recuperado de: https://www.acens.com/wp-content/images/2014/02/bbdd-nosql-wp-acens.pdf
● Seguridad en bases de datos SQL y
NoSQL. (octubre 27, 2017). Recuperado de:
https://tipstecnologia.blogspot.com/2017/10/seguridad-en-base-de-datos-sql-y-nosql.html
● Guía para principiantes de NoSQL:
Pros, contras, tipos y filosofía. (11 Ene, 2021). Recuperado de: https://www.altexsoft.com/blog/nosql-pros-cons/
● Bases de Datos NoSQL: Tipos y
Beneficios. (2018). Recuperado de: https://www.tecnologias-informacion.com/nosql.html
● SQL vs NoSQL: diferencias entre
sistemas de gestión de bases de datos. https://sumatd.com/blog/sql-nosql-diferencias-sgbd/
No hay comentarios.:
Publicar un comentario