データ・マイニング

EXALEAD CloudView は、社内外のデータソースおよびインターネット上の文字情報、マルチメディア・データなどの検索、抽出、処理にご利用いただけます。当社のお客様がビッグデータのバリューを活用するためにご使用のデータ・マイニングには、 テキスト・マイニング、Webデータ・マイニング、マルチメディア解析、感情分析があります。

様々な種類のデータ・マイニング

テキスト・マイニング

テキスト・マイニング(テキスト解析)とは、文章を解析(文脈レベルを含む)して意味のあるデータやパターンを掘り起こし抽出する手法をいいます。この豊かな情報の活用により、適切な検索結果が得られます。データを自動的に分類・クラスタ化してナビゲーションや絞込みを効率化できるほか、質的・量的分析もできます。さらに、構造化・非構造化データを統合してまとまった意味を持たせることも可能です(例:CRMデータをソーシャル・メディアのコンテンツやWebサイトのアクティビティログと統合)。

テキスト解析を提供するベンダーのなかでEXALEAD のユニークな点は、コモディティーサーバーの数を最小限に抑えて、高度なプロセスを大規模なスケールで適用できることです。またモジュール性と設定可能性を備えた広大な意味解析パイプラインも特徴的です。

メリット

  • 非構造化データから隠れたインフォメーション・インテリジェンスを発掘
  • 構造化データに貴重な文脈を付加

Webデータ・マイニング

Webデータ・マイニングでは、特定のクロール対象に関連性のある Webコンテンツを発見、抽出、処理します。例えば、オンライン・サプライヤーのカタログから適切な詳細情報を抽出して社内の部品データベースを検証、補強、拡張したい場合や、オンライン広告から不動産市場についての情報を収集したい場合に利用できます(AKERYS の事例をご参照ください)。

EXALEADでは、世界最大のビッグデータ・ソースであるWebのマイニングを最大限に活用するため、パフォーマンスを最大化しつつ索引サイズを最小化し、クオリティーの高い検索結果を生み出す特異なクロール・エコシステムを提供します。

  • 包括的なデータ蓄積
    本システムでは、フォーム入力やデータベースクエリの結果として動的に生成される深層Webのコンテンツを含む、非構造化/半構造化/構造化フォーム内のWebコンテンツを蓄積できます。
  • 質的フィルタリング
    本プラットフォームでは、設定可能な質的フィルタリングを提供します。例えば、ある特定のタイプの文書を除外したり、あるサイトのコンテンツを単一ページとして扱うことによってその他の関連する情報源を締め出さないようにするほか (website collapsing)、重複したコンテンツ又は殆ど重複したコンテンツについての特別なルールを適用します。
  • ハイパフォーマンス
    パフォーマンスを最大化させるため、 CloudView ではお客様の業務上のニーズやリソースによってクロールの幅と深さを調整していただけます。そして、洗練された最新の方法によって、再クロールや再索引付けすることなく、適切な最新コンテンツや変更されたコンテンツに集中していただけます。

また、CloudView はアクセスしたサイトに過度の負荷を与えたり、データ所有権や個人情報保護方針を侵害しないように配慮して設計されています。

Web コンテンツの収集後、上記のテキスト・マイニングについての段落に記述されたような堅牢な意味解析パイプラインを活用してコンテンツを使用できます。

マルチメディア解析

マルチメディア・コンテンツは、ユーザーが作り出すコンテンツのなかでも急速に伸びており、毎日何百万もの写真、オーディオファイル、動画などがインターネットやエンタープライズサーバー上にアップロードされています。ビッグデータ規模のこのようなデータの利用は、手動によるタグ設定およびファイル名などの基本的関連メタデータのみに頼っていては無理なことで、データへのアクセスも内容の理解も不可能です。

幸いにも、EXALEAD CloudView は自動音声テキスト転写や物体認識処理(コンテンツ・ベースの画像検索)などのテクノロジーとシームレスに統合されており、マルチメディア・コンテンツを徹底的に構造化することが可能です。これにより、大量のマルチメディア・データが一段と利用しやすくなり、医療、マスコミ、出版、環境科学、法医学、デジタル資産管理などの分野で革新的な応用をしていただけます。

感情分析

CloudView の感情分析手法では、セマンティック・テクノロジーを使って非構造化コンテンツに表れた感情や態度を自動的に発見、抽出、要約します。この処理は電子メールのメッセージ、通話録音、消費者/有権者アンケートなどのファイアウォールで保護されたコンテンツに適用されることもありますが、一般的に広く適用されるのが、アイデア、課題、人物、商品、企業などのあらゆることに関する人々の感情が最も包括的に蓄積されているWeb上のコンテンツです。

Web上の感情分析では、通常、選択されたWeb上の情報源(企業サイト、メディア、ブログ、フォーラム、ソーシャル・ネットワークなど)からのデータ収集、そこから得たコンテンツと社内システム(サービス、商品、人物、プログラムなど)のエンティティーとの相互参照、CloudView インデックスの相互参照済みコンテンツ内に表現された感情の抽出・要約が行われます。

感情データのナレッジベースが作成できたら、全文検索、ファセットナビゲーション、定量的ダッシュボード、フリースタイルの探査的分析などによってこれを活用できます。Any-User Analyticsの 感情分析 についての記述をお読みください。