データ収集 & データ融合

ビッグデータの世界では、意味を成す文脈を得るために正しい接続が必要です。

いたるところに存在するビッグデータ

ネットワーク化された機械から常に流入するデータ、データ・ウェアハウス、既存のアプリケーションや大型汎用コンピュータ、インターネットなど、ビッグデータはいたるところに存在しています。そのため、ビッグデータからバリューを引き出すうえで最初に遭遇する難問は、抽出データをリポジトリに蓄積して、既存のシステムの運営に支障を与えることなく利用することです。

この課題に対処するため、EXALEAD CloudView は高度なWebクローラー、活用可能なWeb索引、社内外の構造化・非構造化ビッグデータ・ソース向けのパワフルなコネクタのポートフォリオを提供します。

第2の難問は、複数のデータソースをオートメーション技術を駆使した業界標準的な方法で統合し、異機種環境にある生データを、行動へと導く有益な情報に転換することです。この目的を達成するため、EXALEAD CloudViewはパワフルな意味処理パイプラインを備え、非構造化コンテンツを有意義に構造化・強化し、構造化データと相関関係を持たせます。


データ収集

  • Web コンテンツ
    乱雑で膨大な量の情報を含むインターネットの世界に対処すべく開発されたHTTP クローラーを備えたEXALEADは、インターネット上のデータ(安全なオープンソースからアクセス権やルールを遵守して得た構造化・非構造化データを含む)から上質のコンテンツを抽出するパワフルな高機能のツールを提供します。

メリット

  • 非浸入型の安全な自動的データ収集
  • 情報の表示の完全統一
  • ビッグデータ・スケールでの高い性能

EXALEAD のお客様には、EXALEADのパブリックWebサイトの検索エンジンを使って抽出した上質のコンテンツで、お持ちのデータベースやアプリケーションを素早く簡単に充実していただくこともできます。当検索エンジンは(Yahoo!がBingの検索インフラを採用したことにより)、Google、Microsoft 製のBingに次いで世界第3位を占める検索エンジンです。


ソーシャル・メディアに特化したコネクタがEXALEADのWebデータ収集機能をさらに拡張し、 Facebook、 LinkedIn、 Twitter などのソースから適切な情報を簡単に蓄積できるようになりました。

  • 社内コンテンツ
    パッケージ化されたCloudViewコネクタは、ファイルサーバー、XMLシステム、データベース、電子メールシステム、ディレクトリ、コンテンツ管理/コラボレーション・システム、ENOVIA プラットフォームを含む、社内の幅広い様々な情報源に使用できます。

    EXALEADとInformaticaとの間で締結されたOEM契約により、企業アプリケーション、データ・ウェアハウス、 ビジネス・インテリジェンス・プラットフォーム、大型汎用コンピュータ、NoSQLストア(Hadoop HDFSなど)、リアルタイムのメッセージキューデータを含む多数のビッグデータ・ソースがサポートされるようになり、接続が広がりました。
  • カスタム & 既存システム
    標準プロトコルや標準言語 (HTTP/Rest, Java, C#など)を使って陳腐化したリポジトリやカスタム・リポジトリに接続するため、EXALEADのパッケージ化されたコネクタのポートフォリオを完全に文書化された公開API(アプリケーション・プログラミング・インターフェース)で補うことができます。

EXALEAD CloudView のデータ蓄積機能の詳細については、 データシート 'EXALEAD Connectors and Formats'(英語) をダウンロードしてお読みください。

データ融合

個々のビッグデータを検索、探索、分析して得られるバリューは非常に大きいものの、画期的なインサイトやイノベーションは、様々な情報記憶装置を相互参照させることで実現できる可能性が最も高いといえます。

Map/Reduce型のプロセシング・フレームワークと高機能の意味処理パイプラインを備えたEXALEAD CloudView は、異機種環境にあるビッグデータ・ソースの凝集に最適です。以下を含む情報源に潜む隠れた意味や関連性を発見していただけます。

  • 文書、電子メール、通話録音、動画などの非構造化コンテンツ
  • スマート・メーター、RFIDリーダー、バーコード・スキャナー、Webログ、GPSトラッキング・ユニットなどの機械によるデータやXMLレコードなどの半構造化データ
  • トランザクションのデータベースやデータ・ウェアハウスに保存されたデータなど、高度に構造化されたリレーショナル・データ