Spark: ReduceByKey o GroupByKey

Ambas funciones darán la respuesta correcta. Pero funcionan de forma diferente como puedes ver en las siguientes figuras. GroupByKey aumenta el numero de datos transferidos por la red de forma innecesaria, lo cual puedes observar en las estadísticas de Shuffle.

Seguir leyendo “Spark: ReduceByKey o GroupByKey”

Anuncios

PLN en Apache Spark

logo

Se ha liberado bajo licencia Apache 2.0 una librería de Procesamiento de Lenguaje Natural (en inglés NLP). Está escrita en Scala y no tiene dependencias con otras librerías de PLN. Está construido sobre Apache Spark y Spark ML y ofrece una solución escalable  dentro de contextos Bigdata.

Seguir leyendo “PLN en Apache Spark”

Arquitectura lambda aplicada a clustering de documentos en contextos Big Data

La aplicación de técnicas de minería de datos, concretamente de clustering, sobre grandes volúmenes de datos (Big Data) supone un desafío en cuanto a la escalabilidad y al tiempo de respuesta, ya que cantidades crecientes de datos implican tiempos mayores de computación. La arquitectura lambda es un conjunto de recomendaciones de propósito general para diseñar una arquitectura en escenarios Big Data de forma que se resuelva el problema de la latencia y se puedan obtener resultados en tiempo real. En este trabajo se presenta un estudio aplicando la arquitectura lambda sobre el clustering de documentos en contextos Big Data. La problemática que se desea resolver es la elevada latencia que tiene lugar cuando se introducen nuevos documentos en el sistema que realiza clustering. Uno de los puntos clave sugeridos por esta arquitectura es la separación del procesamiento en tres capas: batch layer, speed layer y serving layer. Una problemática adicional al tratar documentos es su elevada dimensionalidad y este problema se soslaya mediante reducción de dimensionalidad con Latent Dirichlet Allocation. Los experimentos se han llevado a cabo utilizando el framework Apache Spark y demuestran que esta combinación de capas permite realizar clustering sobre grandes volúmenes de datos y disponer de resultados actualizados en tiempo real, con calidad del clustering comparable a trabajos similares sobre contextos no Big Data.

Arquitectura lambda aplicada a clustering de documentos en contextos Big Data

VALLEJO MARTÍNEZ, Alberto; MARTÍNEZ UNANUE, Raquel; RODRIGO YUSTE, Álvaro. Arquitectura lambda aplicada a clustering de documentos en contextos bigdata. 2015.