apache

Recursos de programación de apache
Flavio Junqueira is a CTO at Qbeast. He is a renowned computer scientist and researcher known for his significant contributions to the field of distributed systems. He holds a Ph.D. in Computer Science, from the University of California in San Diego, with an awarded dissertation and numerous co-authored research papers and publications. His work is frequently cited in the academic community, with over 6,000 citations according to Google Scholar, and multiple awards including best paper and test-of-time. Throughout his career, he has held key positions with industrial research labs, such as Yahoo! Research (Senior Researcher and Research Manager) and Microsoft Research (Senior Researcher), and companies such as Confluent (Senior Software Engineer) and Dell Technologies (Chief Architect for Data Management, Senior Distinguished Engineer). His participation in the creation of Apache ZooKeeper and overall contributions are particularly notable as ZooKeeper has been a widely used coordination service for distributed applications.
En este episodio exploraremos la importancia de la seguridad en Apache Kafka, la plataforma de transmisión de datos en tiempo real más popular. Hablaremos de cómo implementar estrategias efectivas para proteger tu infraestructura de Kafka y garantizar la integridad y confidencialidad de la información. Links mencionados en el episodio: https://www.paradigmadigital.com/dev/garantizar-seguridad-datos-apache-kafka/ https://www.paradigmadigital.com/dev/garantiza-seguridad-datos-politicas-autenticacion-apache-kafka/ ¿Quieres ver nuestros tutoriales? https://www.youtube.com/c/ParadigmaDigital/playlists ¿Quieres escuchar nuestros podcasts en Spotify? https://open.spotify.com/show/4IQF9XRgHN7j5Mz52t9wJS?si=7ba64ce69fc04a92 ¿Quieres saber cuáles son los próximos eventos que organizamos?: https://www.paradigmadigital.com/eventos/
Wes McKinney is an open source software developer and entrepreneur focusing on data processing tools and systems. He created the Python pandas and Ibis projects, and co-created Apache Arrow. He is a Member of the Apache Software Foundation and also a project PMC member for Apache Parquet. He is currently a Principal Architect at Posit PBC and a co-founder of Voltron Data.
El proyecto trata como un sistema que requiere información en real time de sistemas legacy de la bolsa para su funcionamiento, los obtiene sin apenas impacto (Conectores CDC de Kafka Connect), transforma los datos en real time (Kafka Streams), realiza los cálculos 100 veces más rápido que antaño (Escalabilidad horizontal cuyo límite es el contexto del problema y no la arquitectura del sistema), permitiendo tomar decisiones con mayor celeridad para evitar posibles problemas. Las tecnologías utilizadas son de lo más innovador, tales como Apache Kafka, Apache Kafka Connect, Openshift, Oracle, PostgreSQL, MongoDB, etc... En la siguiente fase se pretende que el data lake sea explotado por negocio de una menara lo más natural posible, permitiendo que vía indicaciones verbales y mediante el uso de IA Generativa, el sistema realice queries capaces de dar solución a las peticiones del usuario de negocio.
En el episodio de hoy vamos a hablar sobre Redpanda, una plataforma para la integración y el procesamiento de datos qué está generando bastante debate en la comunidad tecnológica. Links mencionados en el episodio: https://www.paradigmadigital.com/dev/redpanda-alternativa-real-apache-kafka/ Ponentes: Jesús Pau de la Cruz, Arquitecto de Software en Paradigma Digital. José Alberto Ruiz Casarrubio, Arquitecto de Software en Paradigma Digital. ¿Quieres ver otros tutoriales? https://www.youtube.com/c/ParadigmaDigital/playlists ¿Quieres escuchar nuestros podcasts en Ivoox? https://www.ivoox.com/podcast-apasionados-tecnologia_sq_f11031082_1.html ¿Quieres saber cuáles son los próximos eventos que organizamos?: https://www.paradigmadigital.com/eventos/
Las bases de datos relacionales de toda la vida se diseñaron hace muchos años en un mundo en el que los requisitos de proceso de datos eran muy diferentes. Bases de datos como Postgres, MySQL, SQLServer o SQLite siguen siendo herramientas fantásticas para trabajar con tus datos, pero... hay algunas cosas que no pueden hacer "bien". En esta charla te explico, con queries concretas, algunas cosas que una BBDD orientada a documentos (MongoDB), una BBDD de grafos (Apache Tinkerpop o Neo4j), o una BBDD de series temporales (QuestDB) pueden hacer, y que serían más complicadas en una BBDD tradicional. No intentaré convencerte de que las RDBMS son el mal (son bastante cuquis), sino simplemente te enseñaré algunas cosas curiosas que te pueden venir bien para resolver problemas específicos. ------------- ¡Conoce Autentia! -Twitter: https://goo.gl/MU5pUQ -Instagram: https://lk.autentia.com/instagram -LinkedIn: https://goo.gl/2On7Fj/ -Facebook: https://goo.gl/o8HrWX
El objetivo de esta charla es explicar el funcionamiento de Apache Spark a todas aquellas personas que nunca lo han usado pero tienen interés en empezar a hacerlo. En una primera parte explicaremos conceptos internos de Apache Spark, y cómo estos nos permiten manejar grandes volúmenes de datos. Posteriormente veremos cómo éstos se relacionan con Apache Spark SQL. Con Apache Spark SQL podrás acceder a toda la potencia que proporciona Spark de una forma sencilla, simplificando el procesamiento y consulta de datos masivos. Si sabes usar SQL, nada te impedirá usar Spark y convertirte en Big Data Engineer. Al final de la sesión mostraremos ejemplos prácticos. Ven con tu ordenador, y descubre cómo tú también puedes dominar el Big Data de forma fácil y sencilla. ------------------- Síguenos en nuestras redes para enterarte de las próximas charlas: - Twitter: https://goo.gl/MU5pUQ - Instagram: https://lk.autentia.com/instagram - LinkedIn: https://goo.gl/2On7Fj/ - Facebook: https://goo.gl/o8HrWX
Xiaoman Dong has devoted his past 10+ years working in the streaming analytics and database domain, building data infrastructure, scalable distributed systems, and low latency queries over large datasets. During his work in StarTree, and Uber, he has designed, led, built, and operated several large-scale business-critical solutions based on open-source software like Apache Kafka, Apache Pinot, Apache Flink, and Kubernetes. While working in Stripe, he has also built and run the world’s largest single Pinot cluster with around 1 trillion rows and 1 PB in size. Xiaoman is also an advocate of Big Data and distributed OLAP systems. He has been actively speaking at large tech conferences Kafka Summit, Flink Forward, and ApacheCon in recent years.
Pregunta 1: ¿Por qué nos debería interesar hacer nuestro ETL masivo de datos con Apache AIRFLOW? ¿Cómo puede escalar Apache AIRFLOW? Pregunta 2: ¿Cómo controlas en Apache AIRFLOW sus pipelines? Pregunta 3: ¿Cómo se pueden programar tareas en Apache AIRFLOW? Pregunta 4: ¿Cómo se pueden programar las dependencias entre las tareas del pipeline? Pregunta 5: ¿Cómo podemos validar/verificar la calidad del dato en Apache AIRFLOW? ¿Cómo funciona la parte de monitorización y alertas en Apache AIRFLOW?
How to efficiently build and manage hundreds of Kubernetes Clusters that serve modern online analytics databases, for different customers? To add to the challenge, what if customers need to run their own clusters inside their own private clouds? We are sharing our system design that solves it. How to provide fully managed online analytics databases like Pinot to hundreds of customers, while those Pinot clusters are running in each customer’s own private virtual cloud? The answer is by combining the power of Kubernetes with our automated scalable architecture that can fully manage a fleet of Kubernetes clusters. When companies consider using SaaS (Software as a Service) products, they are often held back by challenges like security considerations and storage compliance regulations. Those concerns often require that the data stays within the same virtual cloud owned by the company. And it makes managed solutions very hard for companies to implement. In StarTree we have built a modern data infrastructure based on Kubernetes so companies can keep their data inside their own infrastructure, and at the same time get the benefits of using a fully managed Apache Pinot cluster deployed in the customer’s cloud environment. We have designed a scalable system based on Kubernetes that enables remote creation, maintenance, and monitoring of hundreds of Kubernetes clusters from different companies. This enabled us to scale quickly from a handful of deployments to over 100+ Pinot clusters in a short time span with just 10+ engineers.