Apache 基金会宣布 Apache Airflow 毕业成为顶级项目

by admin on 2020年3月5日

Apache 软件基金会宣布,Apache Airflow
已经成功地从孵化毕业,成为基金会的一个新的顶级项目。

使用Airbnb的Airflow来管理数据工作流 – 推酷
http://www.tuicool.com/articles/JzIFNn

Ansible Role: airflow

安装airflow

Apache Airflow
是一个灵活、可扩展的工作流自动化和调度系统,可编集和管理数百 PB
的数据流。项目可轻松编排复杂的计算工作流,通过智能调度、数据库和依赖关系管理、错误处理和日志记录,Airflow
可以自动化从单个服务器到大规模集群的资源管理。项目采用 Python
编写,具有高扩展性,能够运行其他语言编写的任务,并允许与常用的体系结构和项目集成,如
AWS S3、Docker、Kubernetes、MySQL、Postgres 等。

InfoQ:拿Airflow与Azkaban (LinkedIn)、 Luigui (Spotify) 和 Oozie (Yahoo)
这些比较结果会是怎样?

介绍

澳门新葡亰信誉平台游戏 ,Airflow 被 Airbnb
内部用来创建、监控和调整数据管道。任何工作流都可以在这个使用 Python
编写的平台上运行(目前加入 Apache 基金会孵化器)。

Airflow
允许工作流开发人员轻松创建、维护和周期性地调度运行工作流(即有向无环图或成为DAGs)的工具。在Airbnb中,这些工作流包括了如数据存储、增长分析、Email发送、A/B测试等等这些跨越多部门的用例。这个平台拥有和
Hive、Presto、MySQL、HDFS、Postgres和S3交互的能力,并且提供了钩子使得系统拥有很好地扩展性。除了一个命令行界面,该工具还提供了一个
基于Web的用户界面让您可以可视化管道的依赖关系、监控进度、触发任务等。

github地址:https://github.com/apache/incubator-airflow
官方文档地址:https://airflow.incubator.apache.org/

Apache Airflow 于 2014 年由 Airbnb 发起,并于 2016 年 3 月提交给 Apache
进行孵化。

Maxime:

要求

此角色仅在RHEL及其衍生产品上运行。

据悉,Apache Airflow 目前正被 200 多个组织使用,包括
Adobe、Airbnb、Astronomer、Etsy、Google、ING、Lyft、NYC City
Planning、Paypal、Polidea、Qubole、Quizlet、Reddit、Reply、Solita、Square、Twitter
等。

一个关键的区别是,Airflow管道被定义为代码(相较于Oozie和Azkaban被定义为标记语言),并且任务是被动态实例化的(而不是像Luigi是由派生类创建任务)。这使得Airflow成为动态管道生产的最佳解决方案,Airflow可以被用作“分析作为一种服务”、“分析自动化”和计算框架这样强大的概念。Airflow包括我们的A/B测试框架、一个异常检测框架、一个聚合框架和其他框架组成了上述概念的一个范例。

测试环境

ansible 2.2.1.0
os Centos 6.7 X64

澳门新葡亰信誉平台游戏 1


角色变量

airflow_home: "/airflow"
airflow_tmpdir: "/tmp/airflow"
airflow_bin: "/usr/local/bin/airflow"
airflow_user: "airflow"
airflow_extra: [hive,hdfs,jdbc,mysql,async,postgres,rabbitmq,qds,password,ldap]
airflow_db: "airflow"
mysql_host: ""
mysql_port: ""
mysql_user: ""
mysql_password: ""
create_db: true
change_utctime: true
airflow_port: 8080

env: "HOME=/home/{{ airflow_user }},AIRFLOW_HOME={{ airflow_home }},TMPDIR={{ airflow_tmpdir }}"
ansible_python_interpreter: /usr/bin/python2.6

(文/开源中国)    

Airflow与Azkaban (LinkedIn)、 Luigui (Spotify) 和 Oozie (Yahoo)
这些比较结果会是怎样?

依赖

python2.7
supervisor

Airbnb
最近在Apache许可证下开源了它自己的数据工作流管理框架
Airflow
。Airflow被Airbnb内部用来创建、监控和调整数据管道。任何工作流都可以在这个使用Python来编写的平台上运行。
Airflow是一种允许工作流开发人员轻松创建、维护和周期性地调度运行工作流(即有向无环图或成为DAGs)的工具。在Airbnb中,这些工作流包括了如数据存储、增长分析、Email发送、A/B测试等等这些跨越多部门的用例。

github地址

https://github.com/kuailemy123/Ansible-roles/tree/master/airflow

Airflow与Azkaban (LinkedIn)、 Luigui (Spotify) 和 Oozie (Yahoo)
这些比较结果会是怎样?

Example Playbook

- hosts: node1
  vars:
    airflow_home: '/airflow'
    mysql_host: 192.168.77.128
    mysql_port: 3306
    mysql_user: root
    mysql_password: 123456
    supervisor_name: airflow
    airflow_port: 8081
    supervisor_program: 
      - { name: 'webserver', command: '/usr/local/bin/airflow webserver', user: 'airflow' }
      - { name: 'scheduler', command: '/usr/local/bin/airflow scheduler', user: 'airflow' }
  roles:
   - { role: python2.7 }
   - { role: airflow }
   - { role: supervisor }

Airflow将成文DAG调度领域的强力竞争者,

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图