apache

Recursos de programación de apache
En el episodio de hoy vamos a hablar sobre Redpanda, una plataforma para la integración y el procesamiento de datos qué está generando bastante debate en la comunidad tecnológica. Links mencionados en el episodio: https://www.paradigmadigital.com/dev/redpanda-alternativa-real-apache-kafka/ Ponentes: Jesús Pau de la Cruz, Arquitecto de Software en Paradigma Digital. José Alberto Ruiz Casarrubio, Arquitecto de Software en Paradigma Digital. ¿Quieres ver otros tutoriales? https://www.youtube.com/c/ParadigmaDigital/playlists ¿Quieres escuchar nuestros podcasts en Ivoox? https://www.ivoox.com/podcast-apasionados-tecnologia_sq_f11031082_1.html ¿Quieres saber cuáles son los próximos eventos que organizamos?: https://www.paradigmadigital.com/eventos/
Las bases de datos relacionales de toda la vida se diseñaron hace muchos años en un mundo en el que los requisitos de proceso de datos eran muy diferentes. Bases de datos como Postgres, MySQL, SQLServer o SQLite siguen siendo herramientas fantásticas para trabajar con tus datos, pero... hay algunas cosas que no pueden hacer "bien". En esta charla te explico, con queries concretas, algunas cosas que una BBDD orientada a documentos (MongoDB), una BBDD de grafos (Apache Tinkerpop o Neo4j), o una BBDD de series temporales (QuestDB) pueden hacer, y que serían más complicadas en una BBDD tradicional. No intentaré convencerte de que las RDBMS son el mal (son bastante cuquis), sino simplemente te enseñaré algunas cosas curiosas que te pueden venir bien para resolver problemas específicos. ------------- ¡Conoce Autentia! -Twitter: https://goo.gl/MU5pUQ -Instagram: https://lk.autentia.com/instagram -LinkedIn: https://goo.gl/2On7Fj/ -Facebook: https://goo.gl/o8HrWX
El objetivo de esta charla es explicar el funcionamiento de Apache Spark a todas aquellas personas que nunca lo han usado pero tienen interés en empezar a hacerlo. En una primera parte explicaremos conceptos internos de Apache Spark, y cómo estos nos permiten manejar grandes volúmenes de datos. Posteriormente veremos cómo éstos se relacionan con Apache Spark SQL. Con Apache Spark SQL podrás acceder a toda la potencia que proporciona Spark de una forma sencilla, simplificando el procesamiento y consulta de datos masivos. Si sabes usar SQL, nada te impedirá usar Spark y convertirte en Big Data Engineer. Al final de la sesión mostraremos ejemplos prácticos. Ven con tu ordenador, y descubre cómo tú también puedes dominar el Big Data de forma fácil y sencilla. ------------------- Síguenos en nuestras redes para enterarte de las próximas charlas: - Twitter: https://goo.gl/MU5pUQ - Instagram: https://lk.autentia.com/instagram - LinkedIn: https://goo.gl/2On7Fj/ - Facebook: https://goo.gl/o8HrWX
Xiaoman Dong has devoted his past 10+ years working in the streaming analytics and database domain, building data infrastructure, scalable distributed systems, and low latency queries over large datasets. During his work in StarTree, and Uber, he has designed, led, built, and operated several large-scale business-critical solutions based on open-source software like Apache Kafka, Apache Pinot, Apache Flink, and Kubernetes. While working in Stripe, he has also built and run the world’s largest single Pinot cluster with around 1 trillion rows and 1 PB in size. Xiaoman is also an advocate of Big Data and distributed OLAP systems. He has been actively speaking at large tech conferences Kafka Summit, Flink Forward, and ApacheCon in recent years.
Pregunta 1: ¿Por qué nos debería interesar hacer nuestro ETL masivo de datos con Apache AIRFLOW? ¿Cómo puede escalar Apache AIRFLOW? Pregunta 2: ¿Cómo controlas en Apache AIRFLOW sus pipelines? Pregunta 3: ¿Cómo se pueden programar tareas en Apache AIRFLOW? Pregunta 4: ¿Cómo se pueden programar las dependencias entre las tareas del pipeline? Pregunta 5: ¿Cómo podemos validar/verificar la calidad del dato en Apache AIRFLOW? ¿Cómo funciona la parte de monitorización y alertas en Apache AIRFLOW?
How to efficiently build and manage hundreds of Kubernetes Clusters that serve modern online analytics databases, for different customers? To add to the challenge, what if customers need to run their own clusters inside their own private clouds? We are sharing our system design that solves it. How to provide fully managed online analytics databases like Pinot to hundreds of customers, while those Pinot clusters are running in each customer’s own private virtual cloud? The answer is by combining the power of Kubernetes with our automated scalable architecture that can fully manage a fleet of Kubernetes clusters. When companies consider using SaaS (Software as a Service) products, they are often held back by challenges like security considerations and storage compliance regulations. Those concerns often require that the data stays within the same virtual cloud owned by the company. And it makes managed solutions very hard for companies to implement. In StarTree we have built a modern data infrastructure based on Kubernetes so companies can keep their data inside their own infrastructure, and at the same time get the benefits of using a fully managed Apache Pinot cluster deployed in the customer’s cloud environment. We have designed a scalable system based on Kubernetes that enables remote creation, maintenance, and monitoring of hundreds of Kubernetes clusters from different companies. This enabled us to scale quickly from a handful of deployments to over 100+ Pinot clusters in a short time span with just 10+ engineers.
¡Os damos la bienvenida a las Sonar Talks de Apiumhub! En esta charla, Óscar Galindo, desarrollador Fullstack en Apiumhub, presenta Apache Camel, un framework de integración de software que permite crear aplicaciones empresariales de manera más sencilla y eficiente. Apache Camel es una herramienta que se utiliza para integrar diferentes sistemas y tecnologías. La integración de software es un proceso complicado que implica conectar distintas aplicaciones, bases de datos, sistemas de mensajería, entre otros, para que funcionen juntos como un todo. Apache Camel hace esto más fácil proporcionando una interfaz de programación de aplicaciones (API) simple y coherente para diferentes protocolos, formatos y tecnologías. La gran ventaja de Apache Camel es que permite a los desarrolladores conectar sistemas de forma más eficaz sin tener que escribir tanto código manualmente. Esto significa que los desarrolladores pueden centrarse en la lógica empresarial en lugar de preocuparse por la conectividad. Con Apache Camel, se pueden crear flujos de trabajo complejos de manera rápida y sencilla, lo que permite a las empresas lanzar sus aplicaciones más rápidamente al mercado. ¡Descubre Apache Camel para conectar diferentes sistemas y tecnologías de forma eficaz y sin tener que escribir tanto código! -- Apiumhub is a software development hub that solves complex problems with high-quality solutions. Our purpose is to build scalable software to help our clients strengthen their businesses with powerful technology. Large and well-known companies have trusted us including Inditex, Mango, Bitpanda, Nestle, Axa, Tous, Adidas and more. Our services include web development, mobile app development, devops, quality assurance and software architecture. In addition to offering these services, we have a learning platform called ApiumAcademy where we offer customized courses. We have two digital products. VYou, a user management and access management solution and Koople, a Feature Flags tool. Both developed by developers for developers. Every year, we host the Global Software Architecture Summit (GSAS). An event that brings together hundreds of software architecture experts interested in learning, sharing, and connecting. Successful industry professionals such as Mark Richards, Neal Fords & Carola Lilienthal have attended our event as speakers. -- Visit our site: https://apiumhub.com/ Learn more about our ApiumAcademy courses: https://apiumacademy.com/ Attend our event, Global Software Architecture Summit: https://gsas.io/ VYou, our digital product: https://vyou-app.com/en/ Koople, our Feature Flags tool: https://www.koople.io/ -- Social: https://twitter.com/Apium_hub https://www.linkedin.com/company/apium_hub/mycompany/ https://www.instagram.com/apiumhub/
Ponente: Juan Luis Cano Título: Más allá de pandas: comparativa de dataframes en Python Aula: Teoría 8 (Domingo) ----------------------------------------- Resumen: La biblioteca pandas ha sido uno de los factores decisivos para el crecimiento de Python en la década pasada dentro de la industria del análisis de datos y continúa ayudando a data scientists a resolver problemas 15 años después de su creación. Gracias a su éxito, ahora hay varios proyectos open-source que afirman mejorar pandas de diversas maneras: en esta charla haremos un repaso de dichas alternativas. Durante la charla Haremos una breve introducción a pandas, hablaremos de su importancia, y señalaremos algunas de sus limitaciones, como ya hizo su autor hace un lustro (https://wesmckinney.com/blog/apache-arrow-pandas-internals/). Enumeraremos algunas de sus alternativas y las clasificaremos (pandas-like o diferente, nodo único vs distribuido). Mencionaremos RAPIDS, Dask, Modin, y Spark por encima. Mostraremos fragmentos de código de Arrow, Vaex, y Polars a través de notebooks de Jupyter almacenados en Orchest Cloud y hablaremos de los puntos fuertes de las bibliotecas anteriores. Concluiremos dando una serie de pautas para elegir un proyecto u otro en función del caso y las necesidades. Al final de la charla la audiencia tendrá más información de cómo algunas de las alternativas modernas a pandas encajan dentro del ecosistema, entenderá cuáles proveen un camino para migrar más sencillo, y estará más preparada para juzgar cuál usar para próximos proyectos. Conocimientos básicos de pandas ayudarán a entender el resto de la presentación. Los materiales de la charla se encuentran en GitHub (https://github.com/astrojuanlu/talk-dataframes), y una serie de artículos de blog desarrollan los conceptos que se verán durante la charla: Arrow Vaex Polars
En esta serie de episodios que estamos dedicando a Confluent, hoy vamos a hablar de Schema Registry. Empezaremos comparando el funcionamiento de una aplicación síncrona con el de una aplicación asíncrona para posteriormente analizar por qué Schema Registry tiene un papel fundamental en esta última. Puedes ver el resto de episodios de esta serie en los siguientes enlaces: https://www.ivoox.com/stream-processing-kafka-es-que-audios-mp3_rf_86044083_1.html https://www.ivoox.com/que-es-como-funciona-apache-kafka-audios-mp3_rf_81153210_1.html https://www.ivoox.com/descubriendo-kafka-confluent-primeros-pasos-audios-mp3_rf_75587433_1.html Intervienen: Víctor Rodríguez, Solutions Architect en Confluent. Alberto Grande, Responsable del equipo de Innovación en Paradigma Digital. ¿Quieres escuchar nuestros podcasts? https://www.ivoox.com/podcast-apasionados-tecnologia_sq_f11031082_1.html ¿Quieres saber cuáles son los próximos eventos que organizamos?: https://www.paradigmadigital.com/eventos/
Developer Advocate at Apache APISIX A Developer Advocate with 15+ years experience consulting for many different customers in a wide range of contexts, such as telecoms, banking, insurance, large retail and in the public sector. Usually working on Java/Java EE and Spring technologies, but with focused interests like Rich Internet Applications, Testing, CI/CD and DevOps, Nicolas also doubles as a trainer and triples as a book author.