lunes, 7 de junio de 2021

Hadoop y NoSql

 

 

 

 

 

¿Qué es Hadoop? 

 

 

Antes de hablar sobre Hadoop es necesario hablar de Big Data, ¿Qué es la Big data? Es el término que se le da para describir el gran volumen de datos, tanto datos estructurados como no estructurado que llenan a las empresas cada día. Pero no hablamos solo del gran volumen de datos como lo importante o que solo se deben de almacenar, sino que lo verdaderamente importante en el Big Data es como se manejan los datos a favor de la empresa ya que con esa gran cantidad de datos se pueden generar ideas en base a los análisis de los mismos llevando a la empresa a tomar buenas decisiones y que movimientos de negocios tomar, para la captura, gestión y procesamiento de estos datos se necesitan herramientas convencionales, aquí entra lo que es Hadoop. 

 

Hadoop es un framework de código abierto perteneciente a “Apache Foundation”1 que permite a las empresas el procesamiento de grandes conjuntos de datos y el almacenamiento distribuido de los mismos dando como resultado que las empresas u organizaciones obtengan un conocimiento a partir de análisis de grandes cantidades de datos ya sean estructurados o no estructurados y así poder posicionarse con las exigencias que hoy en día los mercados tienen en términos de capacidad y dinamismo. 

 

Este framework que es considerado uno de los más importantes para el Big Data nació como la iniciativa de Apache Foundation para dar soporte a la programación MapReduce2 trabajando con múltiples nodos en el cual cada uno es encargado de procesar una parte del trabajo que se realizará al hacer una petición de grandes cantidades de datos. 

 

En resumen Hadoop nació como una solución de código abierto al Big Data para resolver problemas asociados al mismo convirtiéndose en el sistema más utilizado gracias a su fácil almacenamiento de información, sus capacidades analíticas y sus consultas complejas en bases de datos existentes. Hadoop incorpora herramientas de tipo sqoop3, que son utilizadas para importar los datos estructurados en el cluster de Hadoop o herramientas NoSQL que sirven para hacer el análisis de los datos no estructurados.

 

 

 

 

¿Qué hace a Hadoop uno de los mejores en el Big Data? 

 

Hablamos de Hadoop y su propósito principal de almacenar grandes volúmenes de datos y la consulta de los mismos, en este espacio hablaremos de las características de porqué es tan bueno y para empezar debemos recalcar su arquitectura ya que todas la maquinas que son parte del clúster de Hadoop actúan en equipo como si fueran una sola y eso que cada una funciona de manera independiente a las demás. 

 

En la sección anterior hablamos sobre el procesamiento distribuido de los datos en Hadoop, tomando en cuenta que es una de las características principales del framework, esto se logra a través de un esquema de almacenamiento distribuido (HDFS) 4 y un tratamiento de estructurar los datos en el cual cada nodo tratara con los datos propios como se había hecho mención antes, da como resultado una alta escalabilidad en la organización de los datos lo que permite que sea más sencillo y poco costoso el querer aumentar la capacidad de almacenamiento y dar como resultado reducir el tiempo de respuesta de las consultas. 

 

Otras características con las que cuenta hadoop son:

 

-Tolerancia a fallos: la arquitectura de Hadoop se distribuye en una gran cantidad de nodos por lo mismo se trata la tolerancia a fallos ya que si uno de los nodos falla, las tareas del mismo son pasadas de manera transparente a un nodo par, los datos en este son replicados automáticamente en diferentes máquinas esto hace que la información nunca se pare y se puedan hacer de manera eficiente las consultas dadas, los datos en el que suelen estar replicados en el HDFS están con una “replicación 3”5 dado que la primera replicación se hace en el mismo nodo, la segunda se sitúa en el equipo o nodo que no esté en el rango de la primera réplica y la tercera se hace en el mismo rango de la segunda, pero en un equipo o nodo diferente esto proporciona un buen equilibrio entre el ancho de Banda por transferencia y la disponibilidad de los datos. 

 

Flexibilidad: en el ámbito de la flexibilidad Hadoop tiene un buen punto porque los datos no son procesados antes de su almacenamiento esto hace que se pueda almacenar grandes cantidades de datos y no solo del mismo tipo, sino que pueden ser diferentes como por ejemplo pueden ser de tipo texto, de imagen o cualquier otro ya que su rango de tipos es variado y estos datos pueden ser estructurados o no estructurados, se almacenan y luego se decide cómo se van a utilizar. 

 

Como última característica de Hadoop es el costo ya que es relativamente bajo al ser un software de código abierto y porque utiliza hardware convencionales para almacenar y procesar la información.

 

 

  

Arquitectura básica de Hadoop

 

Como hemos visto, hadoop es un framework que nos ayuda a procesar grandes cantidades de datos de manera distribuida, la arquitectura en la que se basa Hadoop es a través de 4 módulos distintos que funcionan como puntos de conexión los cuales son:

Commom Utilities 

Utilidades comunes, para poder ejecutar Hadoop necesitamos una serie de librerías y utilidades de java que son de ayuda para los componentes que se encuentran dentro del clúster de hadoop o mejor dicho, de los elementos que forman parte del grupo que están compartiendo sus recursos en un procesamiento distribuido como ser YARN, MapReduce y HDFS.     

 

YARN Framework

Como Hadoop es un sistema que se distribuye en distintas maquinas, debe haber un responsable dirigir o administrar los recursos, YARN es el gestor de estos recursos y lo hace de una manera adecuada y eficiente en todas las máquinas, este sirve como un marco o entorno en el que marcha o se ejecuta MapReduce y no solo se encarga de hacer la gestión de recursos sino que también hace programación de trabajos con el objetivo de maximizar los procesamientos y lo hace a través de una partición de tareas haciendo varias tareas pequeñas y asignándolas a distintos esclavos del clúster de Hadoop evitando así los grandes trabajos.  

El YARN se caracteriza por ser multi Alquiler lo que significa que solo un modelo de ese software, que sirve como pauta, se ejecuta en el servidor y da cabida a varios inquilinos los cuales son un conjunto de usuarios que comparten un acceso, pero pueden tener distintos privilegios a esa instancia que se le hace al software.  

Entre otras características tenemos que YARN cuenta con escalabilidad lo que significa que puede ser más grande y no perder su calidad, también cuenta con la utilización de clústeres y compatibilidad.

 

HDFS (Distributed Storage)

Almacenamiento distribuido, elemento pilar para Hadoop para poder almacenar grandes cantidades de datos y mantener una copia de estos, a lo que se le denomina replicación de datos, que garantiza a los usuarios una disponibilidad inmediata a estos, HDFS cuenta con una estructura que es tolerante a fallas así que un dato que viaja a través de red puede llegar a su destino por varias rutas lo que significa que si en una de ellas encuentra una falla, de inmediato toma otra ruta para evitar la pérdida de este contenido, esto con el objetivo reducir a lo más mínimo el número de afectados.

 

HDFS hace un almacenamiento a nivel de nodos y cada uno le distribuye una cantidad igualitaria para reducir el tráfico de grandes cantidades de datos aumentando así su velocidad en el procesamiento, aquí es donde lo procesos MapReduce se apoyan para poder paralelizar el procesamiento de datos lo que sencillamente es poder ejecutar una tarea de manera simultánea.  

 

MapReduce (Distributed Computation)  

Mapa reducido, esto es un algoritmo que hace referencia al modelo YARN. El objetivo principal de MapReduce es llevar a cabo un procesamiento distribuido en paralelo que es lo que le permite a Hadoop ser eficiente con su velocidad, una Big data elimina un procedimiento en serie y se basa en un procedimiento en paralelo masivo porque de esta manera logra analizar los datos en grandes volúmenes o cantidades de manera rápida.

Este se divide en dos fases:

1.     Tarea de mapa:

RecordReader se encarga de facilitar parejas clave-valor con una función Map (). La clave es la información de la ubicación y el valor son los datos de esta.

Mapa: función determinada por el usuario para procesar las tuplas dadas por el lector de registros.

Combinador: sirve para agrupar los datos en el flujo de trabajo del mapa el cual es opcional.

Particional: encargado de recopilar la clave-valor obtenidos y los fragmenta.

2.     Reducir tarea:

Shuffle and Sort: en esta fase toman los datos y se ordenan de una manera adecuada para el siguiente proceso y puede no ser necesaria.

Reducir: las claves y valores obtenidas por la función Map() pasan a ser reducida haciendo combinaciones entre ellas.

OutputFormat: una vez que pasan los datos por el proceso de reducción donde las claves y valores se combinan de alguna manera saliendo convertidos en una nueva estructura de claves y valores.



Desafíos que genera Hadoop

Es grande la cantidad de desafíos a los que hay que someterse al abordar Hadoop ya que este sirve como herramienta para obtener los grandes beneficios que ofrece una Big data donde este término se refiere a los datos en grandes cantidades y a la forma de analizar tanta cantidad de datos a una alta y muy eficaz velocidad que sirve para poder explotar los recursos con los que cuenta una empresa y así poder crear nuevos productos y servicios que por obvias razones, para logar esa meta hay que enfrentar a esos desafíos y superarlos en su totalidad.

Una empresa que cuente con un sistema de información y tenga la intención de mejorar su infraestructura para la manipulación de datos como almacenar, recuperar, entre otras, puede incluir a Hadoop si dicha empresa maneja grandes cantidades de datos y esto implica enfrentar ese gran reto ya sea con sistemas que tengan los servidores en la nube que significa que las herramientas de hardware no se encuentran en las instalaciones físicas de la empresa o bien en un sistema on-premise que funciona de manera contraria, este cuenta con las herramientas de alojan el software de trabajo dentro las instalaciones físicas de la empresa.

Este reto conlleva soluciones para las que hay que tener ciertas habilidades, entre una de las soluciones tenemos a las ad hoc (para esto) que se basa en resolver un problema determinado y su solución solo resuelve ese problema y no otro pues no es algo general, un ejemplo es la respuesta en tiempo real que va de la mano con la velocidad de la Big Data, esta respuesta en tiempo real es la parte más vulnerable o punto débil de cualquier plataforma de código abierto (OpenSource).      

Hemos hablado de incorporar Hadoop a una infraestructura de TI, pero también debemos hablar sobre quienes hacen esta labor y materializan las soluciones, entonces, uno de los primeros desafíos es la capacitación al personal, ya que existe una escasez de técnicos que tengan las habilidades y experiencia en esta área y eso lo vuelve otro punto débil en la incorporación de Hadoop que por otro lado es un reto para el personal del área de tecnología con el que se cuenta para que se especialicen o bien, surge una demanda laboral.

Una vez teniendo a Hadoop como parte de nuestros recursos tecnológicos un desafío determinante para la empresa es poder satisfacer o responder a las necesidades para las que fue incorporado hadoop pues la intención es poner agarrar aquella gran cantidad de datos y poder a analizarla de la mejor manera para saca todo el provecho posible generando ganancias, y dándole valor a dicho empresa.

Trayendo al frente los puntos más relevantes en los desafíos para incorporar Hadoop podemos decir que la falta de experiencia o escasez de conocimientos, la integración de la plataforma a nuestra infraestructura de TI y la extracción del valor que se le da a la empresa son los principales desafíos por su nivel de complejidad y eso hace que Hadoop pierda su atracción pues no siempre Hadoop será la opción principal o la única por lo que previo a tomar la decisión de incorporar Hadoop se debe hacer uso de la razón para ver si en realidad se necesita un gran procesamiento y análisis de datos. 

 

 

 

Estado actual de Hadoop

Hadoop a los ojos del mundo informático ha ido creciendo poco a poco hasta convertirse en una de las mejores opciones para Big Data y el procesamiento de datos a bajo costo y alta disponibilidad que dispone este es lo que ha atraído a muchas empresas o grupos para elegirse sobre la competencia como muchas han de saber la escalabilidad de Hadoop es casi infinita, pero con un riesgo de mucho consumo de datos en ella, pero ¿a qué se debe esto? Pues esto se basa en que Hadoop solo tiene que agregar más nodos para gestionar más datos y no ocupa de un sistema muy complicado para eso por eso es que se considera uno de los grandes en la Big Data y su crecimiento en el manejo de ello.

Pero la pregunta aquí es que está haciendo Hadoop para que estas empresas lo elijan y eso es:

·       Extensión de almacenamiento de datos: 46%

·       Exploración y descubrimiento de datos: 46%

·       Área de almacenamiento de datos para almacenamiento e integración de datos: 39%

·       Lago de datos: 36%

·       Archivo consultable para datos no tradicionales (web, maquina, sensor, social): 36%

·       Plataforma computacional y san box para análisis avanzado: 33%

Esto solo son datos que una empresa lograría resaltar con la implementación den Hadoop, pero ahora surge otra pregunta ¿Cuáles son los beneficios? Pues esos serian estos:

 





Como se puede apreciar los beneficios no son algo que cualquier organización quiera evitar más bien los busca constantemente y los que provee Hadoop son muy interesantes en más son completamente más grandes que sus desventajas o desafíos al elegirlo por lo que lo convierten en uno de los líderes en el mercado de gestores de Big Data aparte de los gestores de bases de datos relacionales convencionales que normalmente se usan a gran escala como seria Oracle o MySQL.

  

¿Cómo es utilizado Hadoop?

Bueno como saben uno siempre busca ver como se utiliza o cuales son la aplicación de un software antes de aplicarlas en un proyecto o empresa como tal por eso ahora explicaremos cuales serían los usos de Hadoop y aunque parezca repetitivo ya los hemos mostrado, pero solo en estadística ahora explicaremos cada uno de esas características y realmente como Hadoop las explota de las mejores maneras.

1.     Almacenamiento y Archivo de datos de bajo coste: El gran costo accesible que posee Hadoop con su Hardware lo hace muy favorable en el comercio del mismo y que sea útil para almacenar y combinar datos en grandes cantidades como transacciones, medios sociales, científicos, etc. Hadoop supo aprovechar esta característica de bajo costo y lo aprovecho con la información que pueda no ser decisiva en el momento dado pero que se requiera un análisis a profundidad en fechas posteriores para su uso.

 

2.     SandBox para descubrimiento y análisis: Hadoop al ser diseñado para trabajar con big data o con muchos tipos de datos en varias formas necesita ejecutar algoritmos analíticos que le ayudan a realizar estas operaciones y el enfoque SandBox les permite realizar pruebas para dar oportunidad para que las personas comiencen algo nuevo y con la característica anterior con un costo bajo que les permite avanzar y crecer a futuro.

 

3.     Data Lake(Lago de datos): Hadoop es uno de los pocos gestores que usan Data Lake para su procesamiento de datos pues como dijimos antes Hadoop trabaja con todo tipo de archivos y ahora entonces porque data lake y no un almacén de datos convencional es porque un data lake almacena los datos sin cambiar su formato original sin importar cuál sea y sin importar su estructura algo que un almacén normal no lo permite y se ocupa una conversión y luego retornarlo a su formato original volviendo tedioso el trabajo pues para esto es que hadoop los usa para evitar todo eso.


4.     Complementa su almacén de datos: Como podemos observar Hadoop se sitúa a un lado de los almacenes de datos convencionales y aunque no siga sus pasos aun así tiene un estatus donde se encuentra ya que él se preocupa más que todo por tener una plataforma completa que le permita a los usuarios y desarrolladores ver y trabajar con los datos de maneras más fáciles y flexibles.

5.               IoT y Hadoop: Primero que nada que es IoT (Internet Of Things ) ósea “Internet de las cosas” eso se refiere a la agrupación e interconexión de dispositivos y objetos a través de una red donde todos pueden comunicarse entre sí; Bueno y porque hablamos de esto es porque Hadoop que es usado como un almacén de datos en grandes o masivas cantidades permiten que hadoop sirva como descubrimiento y definición de patrones para monitorización para instrucciones prescriptivas.

 

 

 

NoSQL

Cuando hablamos de NoSQL hablamos sobre la estructura  no relacional, esto quiere decir, que no cumplen los esquemas de entidad-relación y no soportan operaciones de JOIN. Los NoSQL tienen una eficiencia que nos permite guardar información y esto soluciona los problemas de las bases de datos relaciones y gestionar los problemas de escalabilidad. Esta necesidad se tuvo que implementar como empresas como Twitter, Facebook, etc como aumentaban los usuarios tenían la posibilidad de subir información, no solo las empresas hacen esto y se tenía que investigar una nueva estructura. Otra cualidad que tienen los gestores de datos NoSQL es que no usa el método de tablas, sino que otra forma de almacenamiento y sus formatos puede ser como clave–valor, mapeo de columnas o grafos. Los desarrolladores trabajan con innumerables cantidades de datos y están en constante evolución (estructurados, semi estructurados, no estructurados y polimórficos).

FUNCIONALIDAD

Las bases de datos NoSQL tiene la función de mover archivos y almacenarlos para permitirnos a trabajar con grandes cantidades de información y así podemos acceder a ella cuando lo necesitemos podemos decir que las bases de datos NoSQL centran sus funciones con base a:

      Escalabilidad horizontal: habilidad que ayuda al crecimiento de las bases de datos y tiene la cualidad de no afectar su funcionamiento.

      La nube:  Los gestores de base de datos NoSQL tienen una unión fuerte con la nube donde se puede trabajar con mucha seguridad, ya que su amplio almacenamiento es vital, también la información cuando se necesite consultar esta siempre a la hora que se ocupe.

      Uso eficiente de los recursos: Como van avanzando la tecnología las bases de datos NoSQL tiene un modelo de flexibilidad para adaptarse a cualquier transición tecnológica quiere decir que cualquier herramienta que se necesite no habrá problemas.

      Libertad de esquema: El sistema de bases de datos no son nada rígidas en su forma de almacenamiento y también para modificar, si necesita hacer dicha modificación de un campo o tipo de dato no hay problema al contrario de los SQL.

 

      Velocidad de respuesta: se mide por su latencia y las bases de datos NoSQL se preocupan en este aspecto, su respuesta es muy eficiente.

      Índice: Tanto los SQL y los NoSQL sus gestores funcionan mediante índices para poder realizar sus consultas. Cabe destacar que los NoSQL tiene un sistema de nodos este método se llama B-Tree (Árbol-B), los nodos se mantienen balanceados y su búsqueda es mucho mas rapida.

      Replican información: Los NoSQL replican su información en distintos servidores, quiere decir que los datos se encuentran en diferentes lugares. Las formas en que se pueden recopilar esta información son por medio de maestro-esclavo que mediante un servidor principal les permite una copia de dicha información a los esclavos cuando pidan dicha solicitud y la otra forma es peer to peer en esta la información se replica en varios nodos como mucho 3 y consiste que si uno falla están los otros nodo para apoyar y dar la información que se pide, esto ayuda a que nunca se pierda dichos datos.

 

MARCAS DE BASES DE DATOS NOSQL

Las marcas que nos podemos encontrar de gestores de bases de datos NoSQL son:

      Cassandra: Creado por Apache de tipo clave-valor. Dispone de su propio lenguaje para crear sus consultas CQL. La estructura de Cassandra está compuesta por Java esto quiere decir que esta funciona en cualquier plataforma de tipo JVM.

      Redis: Creada por Salvatore Sanfilippo y Pieter Noordhuis con el soporte de VMWare. También es de tipo clave-valor su forma de almacenamiento es como la de un arreglo grande tiene una una memoria de almacenaje, los datos pueden ser cadenas, hashes, conjuntos de datos o listas.

Un factor bueno es que sus operaciones son atómicas y son persistentes, pero una desventaja es que no se pueden hacer consultas solo se pueden insertar y ver datos. Son compatible con Unix y Linux y sus derivados.

      MongoDB: Una de las bases del momento es del tipo orientada a documento el esquema libre esto quiere decir que cada entrada puede ser de diferente con los otros tipos de registro almacenados. Para almacenar esta información se usa el sistema BSON que es una evolución del conocido JSON con la característica nueva de que puede almacenar datos binarios.

      CouchDB: Creado por Apache y está diseñado con el lenguaje de Erlang que funciona para el sistema POSIX, incluyendo también a UNIX y LINUX. Con su característica más importante el Restful HTTP API que es una interfaz de programación web que se ajusta a las restricciones del estilo arquitectónico REST y con JavaScript como lenguaje principal de interacción. Con su almacenamiento de datos con un JSON, deja crear vistas que es la combinación para retornar esos valores en un tipo de documento con el fin de llegar a que couchDB sus operaciones son de tipo JOIN de SQL.

 

SEGURIDAD

La seguridad se fortalece mediante usos de procesos adecuados para las consultas y tener un control estricto. Herramientas especializadas para escanear vulnerabilidades a las bases de datos NoSQL:

      Nessus: Analiza vulnerabilidades y audita la configuración de datos en busca de fallos en su sistema.

      NoSQL map: Una herramienta de código libre hecha para Python está diseñada para la detección de ataques inyectivos, audita y destruye las configuraciones predeterminadas de las bases de datos y aplica también para aplicaciones web.

 

VENTAJAS Y DESVENTAJAS.

Si bien en los últimos años se ha visto un incremento en la utilización de las bases de datos NOSQL, todavía le falta madurez y funcionalidades, además, a diferencia de las bases de datos SQL, que cuentan con un modelo muy generalizado, NOSQL está diseñado para casos de uso muy específicos por lo que es probable que terminemos utilizando diferentes bases, inclusive, llegar a utilizar una base de datos SQL.

Otra desventaja a tomar en cuenta es su gran tamaño, esto se debe a que las bases de datos NOSQL no están pensadas para eliminar los datos duplicados, por lo cual, pueden volverse masivas.

 

 

Algunas de sus ventajas son: rendimiento, escalabilidad, flexibilidad y modelado de datos. En rendimiento podemos mencionar que gracias a que los datos se suelen almacenar en una sola base de datos y no es necesario múltiples consultas. En la escalabilidad gracias a que en NOSQL es horizontal y no vertical. En Flexibilidad, por su naturaleza no rígida es mucho más fácil probar ideas y actualizaciones, aunque depender de las necesidades del proyecto.

 

TIPOS DE BASES DE DATOS NOSQL.

Hay una gran variedad de base de datos NoSQL para cubrir necesidades y usos específicos, y ellas se pueden categorizar de la siguiente manera:

  1. Jerarquico: Utilizan un modelo de árbol o padre-hijo para almacenar los datos, este modelo en POO es llamado herencia.
  2. Clave-Valor: Son muy versátiles y flexibles, están diseñadas para aplicaciones de alto rendimiento, y los valores que admiten son cualquier tipo de objeto binario.
  3. De Documentos: Suelen almacenar JSON, XML y BSON, y son similares a la base de datos clave-valor, con la diferencia principal, en como procesan los datos, además, permite la indexación de los campos principales para una rápida recuperación sin conocer la clase.
  4. Network o Grafos: Están basadas en teoría de grafos, sus datos se almacenan a través de relaciones y nodos, donde los nodos son las entidades y las relaciones describen como se vinculan los nodos. Su principal utilidad es en base de datos donde sus datos tienden a cambiar con frecuencia.
  5. Orientado a columnas: Son muy similares a las bases de datos relacionales, con la principal diferencia en su modelo de almacenamiento de datos, no siendo a través de las filas, sino en las columnas.

 

 

DIFERENCIAS ENTRE SQL Y NOSQL.

  1. Flexibilidad en el esquema: En SQL los esquemas de datos son poco flexibles, mientras que en NoSQL los esquemas de datos son dinámicos, permitiendo almacenar sus atributos dependiendo de las necesidades del proyecto.
  2. Escalabilidad: La escalabilidad en SQL es vertical, lo que significa que, si la base de datos aumenta, se necesitara un hardware más potente. Y en el caso de NoSQL, al ser de escalabilidad horizontal permite la posibilidad de aumentar el rendimiento aumentando la cantidad de nodos (servidores), es decir, por medio de la computación distribuida.
  3. SQL implementa las propiedades conocidas como ACID (Atomicity, Consistency, Isolation and Durability) mientras que NoSQL no implementa un mecanismo rígido de consistencia para garantizar la consistencia de los datos, sino que usa un sistema llamado Consistencia Eventual donde los cambios se propagan en un tiempo determinado.









Referencias

 1 Apache Foundation es una organización sin fines de lucro creada para dar soporte a los proyectos de software bajo la denominación de Apache.

2 MapReduce es una técnica de procesamiento y un programa modelo computacional distribuida basada en Java. 

3 Sqoop es acronimo para “SQL-a-Hadoop” es una herramienta de datos grande que ofrece la capacidad de extraer datos de almacenes de datos no Hadoop.

 

4 HDFS es el acrónimo en inglés para sistema de archivos distribuido de Hadoop. 

5 Replicación es el proceso de copiar y mantener actualizados los datos en varios modos de bases de datos ya sean persistentes o no.

 

 

Bibliografías 

      Hadoop: que es y para que se utiliza (2020). UNIR, recuperado de: 

https://www.unir.net/ingenieria/revista/que-es-hadoop/ 

 

      Una forma de tolerancia a fallos (2012). Datos intensos. Recuperado de:  

http://datosintensos.blogspot.com/2012/10/una-forma-de-tolerancia-fallos-como-se.html 

 

      Que es el Apache Hadoop (2020), Power Data, Redacción PowerData, recuperado de: 

https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/397377/qu-es-el-apache-hadoop 

 

      Big Data (2020), Power Data, Recuperado de: 

https://www.powerdata.es/big-data 

 

      Qué es Hadoop y qué vinculación tiene con el Big Data (2018), Thaís Balaguero,¿que es Hadoop? recuperado de:

https://www.deustoformacion.com/blog/marketing-digital/que-es-hadoop-que-vinculacion-tiene-con-big-data

 

      ¿Qué es Hadoop? (28 de septiembre de 2017), Abraham Requena Mesa, OpenWebinars. Recuperado de: https://openwebinars.net/blog/que-es-hadoop/

 

      Hadoop ¿Qué es y porque es importante? (2021), SAS. Recuperado de:

https://www.sas.com/es_mx/insights/big-data/hadoop.html

 

      ¿Qué es Hadoop? ¿Para qué se usa y como se usa? (marzo 5 del 2018), Experto en Big Data. Recuperado de: https://expertoenbigdata.com/que-es-hadoop/

 

·       SAS Institute Inc. (2021), hadoop-for-the-enterprise-107967.Recuperado de: https://www.sas.com/content/dam/SAS/en_us/doc/infographic/hadoop-for-the-enterprise-107967.pdf

 

 

      Fundamentos de las bases de datos NoSQL. MongoDB Inc. (2021). Recuperado de: https://www.mongodb.com/es/nosql-explained

      What is a REST API?. RetHat. (May 8, 2020). Recuperado de: https://www.redhat.com/en/topics/api/what-is-a-rest-api

 

      Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar. Acens. Recuperado de: https://www.acens.com/wp-content/images/2014/02/bbdd-nosql-wp-acens.pdf

      Seguridad en bases de datos SQL y NoSQL. (octubre 27, 2017). Recuperado de: 

https://tipstecnologia.blogspot.com/2017/10/seguridad-en-base-de-datos-sql-y-nosql.html

      Guía para principiantes de NoSQL: Pros, contras, tipos y filosofía. (11 Ene, 2021). Recuperado de: https://www.altexsoft.com/blog/nosql-pros-cons/

      Bases de Datos NoSQL: Tipos y Beneficios. (2018). Recuperado de:  https://www.tecnologias-informacion.com/nosql.html

 

      SQL vs NoSQL: diferencias entre sistemas de gestión de bases de datos. https://sumatd.com/blog/sql-nosql-diferencias-sgbd/

No hay comentarios.:

Publicar un comentario

Hadoop y NoSql

          ¿Qué es Hadoop?      Antes de hablar sobre Hadoop es necesario hablar de Big Data, ¿Qué es la Big data? Es el términ...