Hecatoncheirについて¶
概要¶
Hecatoncheirは、データベースのメタデータおよび実データの統計情報やプロファイルを用いることで、データ品質マネジメントおよびデータガバナンスを実施するデータスチュアードを支援するソフトウェアです。
主要な機能¶
Hecatoncheirでは、以下の機能を提供しています。
- メタデータ収集機能
- データベースに接続してディクショナリ/カタログからメタデータを自動的に収集、可視化します。
- 補足する情報をインポートして一元的に閲覧することができます。
- データプロファイリング機能
- データベースに接続してテーブルやカラムに関する統計情報を自動的に収集、可視化します。
- データ検証機能
- あらかじめ指定したルールに基づいてデータが期待した品質や一貫性の状態であるかを検証、可視化します。
- カタログ機能
- テーブルを任意のデータセットにグループ化して参照することができます。
- データセットに関連する説明や添付ファイルを共有することができます。
- ビジネス用語辞書機能
- ビジネス用語を登録することで、テーブルやカラムの説明に出てくる用語の意味を参照することができます。
動作環境¶
対応データベース¶
現在のバージョンでは、以下のRDBMS製品に対応しています。
- Oracle Database / Oracle Exadata
- SQL Server
- PostgreSQL
- MySQL
- Amazon Redshift
- Google BigQuery
以下のRDBMS製品は、今後、順次対応する予定です。
- DB2
- DB2 PureScale (Neteeza)
- Apache Hive
- Apache Spark
- Vertica
対応オペレーティングシステム¶
現在のバージョンでは、以下のオペレーティングシステムに対応しています。
- Red Hat Enterprise Linux 6 (x86_64)
- Red Hat Enterprise Linux 7 (x86_64)
- Windows 7 (64bit / 32bit)
依存するソフトウェア¶
動作させるには以下のソフトウェアが必要です。
- Python 2.7系
- 各DBMSのクライアントライブラリやドライバ
- それらをPythonから利用するためのモジュール
Pythonのモジュールとして以下を使用します。
- cx-Oracle: Oracle Database / Oracle Exadata
- MySQL-python: MySQL
- psycopg2: PostgreSQL, Amazon Redshift
- pymssql: SQL Server