5 (100%) 1 vote

Herramientas para Big Data

El objetivo de Big Data es transformar datos en información útil para la empresa y para conseguir eso se emplean diferentes herramientas Big Data que nos ayudan a analizar, procesar y almacenar los datos que hemos obtenido. Dentro de las herramientas gratuitas están las open source que garantizan el éxito del proceso, por otro lado siempre tendremos las de pago.

Más abajo mostramos unas herramientas de open source que ofrecen soluciones para la explotación del software de Big Data durante todos los procesos que realiza.

HADOOP

Es una de las primeras herramientas de Big Data. Esta herramienta se considera se considera el framework común para el almacenamiento masivo de datos al igual que para procesar y analizar.

La biblioteca Hadoop emplea modelos de programación sencillos para el almacenaje y proceso de cantidades masivas de datos.

Soporta varios sistemas operativos y se suele usar sobre plataformas en la nube como Amazon o Google Cloud.

MongoDB

mongodb

Dentro de las bases de datos NoSQL, una de las más conocidas por no decir la más, es MongoDB. Tiene un concepto diferente al de otras bases de datos similares, y se está popularizando en almacenaje de datos de aplicaciones.

MongoDB está orientado a almacenar en documentos en vez de en registro y estos documentos se almacenan en BSON. Aunque no tenga una extensa variedad de uso si tiene un amplio abanico de uso en diferentes tipos de proyectos sobretodo en los que requieran escalabilidad en concreto con los que escalen horizontalmente.

Elasticsearch

Es una herramienta potente a la hora de buscar entre grandes cantidades de datos, sobretodo cuando son muy complejos.

Permite analizar e indexar en tiempo real un volumen masivo de datos y consultarlos. Al estar indexados los resultados a la hora de consultar se obtienen de forma muy rápida.

Al contrario que otras herramientas, no necesita determinar un esquema de la información añadida.

Con esta herramienta podemos buscar textos complicados, ver el estado de los nodos y escalar sin demasiadas necesidades si quisiéramos más potencia.

Apache Spark

Es un motor de procesamiento de datos en código abierto muy rápido.

Es considerado el primer software open source que programación distribuida entre diferentes ordenadores que trabajan como uno solo.

Se pueden programar aplicaciones en diferentes lenguajes como Java, Scala, Python o R. y así hacerlo hasta 100 veces más rápido en disco que Hadoop MapReduce.

Apache Storm

 

 Es un sistema de computación distribuida en tiempo real  procesando flujos constantes de datos como los de las redes sociales.

Es capaz de procesar millones de mensajes por segundo, y gracias a esa alta velocidad se está convirtiendo en una herramienta muy fructífera en el proceso a tiempo real de datos masivos. También se utiliza para procesar logs de aplicaciones, para ver el uso de estas en distintos servidores y la gestión de errores: para conseguir información de redes sociales a través de sus APIs y analizarlo en tiempo real. recoger y procesar datos de sensores, buscadores verticales, web analytics, etc.

Lenguaje R

Es un lenguaje de programación y entorno de software para el cálculo estadístico y gráficos. Es un lenguaje de los más utilizados por los estadistas y profesionales en la minería de datos, investigación bioinformática y las cálculos financieros.

Se parece más al lenguaje matemático que a cualquier otro de programación, lo que no puede ser un punto a favor para los programadores a la hora de escoger programar en R para temas de Big Data. Por otro lado dispone de gran cantidad de librerías creadas por su comunidad y otras muchas herramientas de muy buena calidad.

Python

 

Es una herramienta  bastante fácil de usar para usuarios que no estén familiarizados con la informática de alto nivel, aunque se necesita trabajar con análisis de datos.

Muy eficiente por su gran comunidad y su gran disponibilidad de librerías ya hechas por otros usuarios. Por otro lado no es especialmente rápido en su proceso por eso se suele usar para cálculos poco pesados o procesos de integración.