Blog

Spark vs. Hadoop: ¿es el motor de big data una parte de reemplazo?


Conforme ha evolucionado el marco de procesamiento distribuido Hadoop, ha llegado a incluir mucho más que su núcleo original, que consistía en el sistema de archivos distribuido Hadoop (HDFS) y el entorno de programación MapReduce. Entre una serie de nuevos componentes del ecosistema Hadoop, una tecnología ha adquirido una especial atención: el motor de procesamiento de datos en memoria Spark. Spark está reemplazando a MapReduce en un número creciente de trabajos de procesamiento por lotes en los conjuntos de Hadoop; sus defensores afirman que puede ejecutarlos hasta 100 veces más rápido.

Después de que el software de código abierto Apache Spark estuvo disponible el año pasado, los proveedores de la distribución de Hadoop se apresuraron a agregar la tecnología –que pronto será actualizada en un lanzamiento de la versión 1.6– a su cartera de productos. Pero mientras Spark  ahora a menudo se encuentra en aplicaciones de big data, junto con HDFS y el administrador de recursos YARN de Hadoop, también puede ser utilizado como un servicio independiente. Eso está provocando un creciente debate en los círculos de gestión de datos en relación con Spark vs. Hadoop.

¿Continuará Hadoop siendo un punto de partida para Spark? Para obtener una visión de usuario sobre esa pregunta, nuestro portal hermano SearchDataManagement preguntó a asistentes a Strata + Hadoop World 2015 en Nueva York si ven el motor de procesamiento Spark como complemento de Hadoop, o una alternativa al mismo y a componentes tales como YARN y MapReduce. Esto es lo que algunos de ellos dijeron sobre el tema de Spark vs. Hadoop.

Sridhar Alla, arquitecto de big data de la compañía de televisión por cable Comcast: “Spark no almacena realmente nada. Procesar en Spark está reemplazando MapReduce y YARN, pero la capa de almacenamiento va a ser Hadoop durante mucho tiempo”.

Hakan Jonsson, científico de datos para el equipo de producto LifeLog en Sony Mobile Communications: “Es un reemplazo. Spark es mucho más rápido que Hadoop. Y desde el punto de vista de la productividad, usted no tiene que hacer el modelado [analítico] en una herramienta separada”.

Brett Shriver, director senior de tecnología de regulación del mercado para la Autoridad Reguladora de la Industria Financiera o FINRA: “Hay cuatro o cinco patrones [de vigilancia] desafiantes en cuanto a desempeño en nuestra cartera, y están dirigidos hacia Spark. A largo plazo, ¿quién sabe? Puede que sea la forma en que vayamos. El jurado aún está deliberando”.

Joe Hsy, director de plataformas y herramientas de servicios de nube para la unidad de WebEx de Cisco: “Creo que Spark va a reemplazar una gran parte de lo aquello para lo que usamos hoy MapReduce. Con el tiempo, si Spark continúa ampliando su funcionalidad, podría reemplazar MapReduce por completo”.

William Theisinger, vicepresidente de ingeniería en el productor de Páginas Amarillas YP LLC: “Usted necesita llegar a donde el uso de las tecnologías es predecible, y yo no diría eso sobre Spark hoy. Todavía voy a tener que soportar MapReduce, también”.

Charlie Crocker, líder del programa de análisis de negocios en el proveedor de software Autodesk: “Ya sea que esté utilizando Hadoop o Spark, creo que va a convertirse en una cuestión filosófica. Si quieres ser revolucionario, puede decir que Hadoop está muerto. Pero Hadoop no está muerto”.

Hadoop tiene algo de ventaja en las implementaciones, y a pesar de la reducida estatura de MapReduce, es probable que muchos trabajos de MapReduce que ya se están ejecutando continúen haciendo precisamente eso: correr. Además, ha habido una curva de aprendizaje al poner las aplicaciones de prueba de concepto de Hadoop en producción, y Spark puede igualmente enfrentar una curva similar.

En cierto modo, el ascenso de Spark muestra la capacidad de Hadoop para expandirse más allá de sus componentes originales. Y es probable que la avalancha de nuevas tecnologías de big data  continúe, sin importar cómo se resuelve el tema de Spark vs. Hadoop.

 

Fuente: TechTarget

Volver

Machine Learning And Artificial Intelligence


La Analogía entre ML y AI
Esto ha sido un tema sensible entre nosotros que, si quiere marcar diferencias entre do

Ampliar

Tendencias Big Data y analítica 2018


Evolución técnica notable

Muchos expertos coinciden que 2018 será el año en que el Big Data logrará una evol

Ampliar

¿Será la Visualización la nueva y gran V de Big Data?


El efecto de superioridad de imagen (picture superiority effect) se refiere al fenómeno en el que las imágenes son más propensas a

Ampliar
developed by Avilasoto