Collecte et fusion de données

Dans un monde de Big Data, un contexte porteur de sens commence par de bonnes connexions.

Le Big Data est partout

De nos jours, les big data sont partout : des flux de données se déversent en permanence de machines en réseau, dans les entrepôts de données, des applis et mainframes personnalisés, sur le Web... A ce titre, le premier défi dans l'extraction de valeur des big data, consiste à les regrouper dans un référentiel dans lequel elles peuvent être exploitées sans impacter vos opérations existantes.

Pour vous aider à y parvenir, EXALEAD CloudView propose un robot d'indexation avancé et un index Web exploitable, ainsi qu'un puissant portefeuille de connecteurs pour les sources de big data structurées et non structurées à l'intérieur et à l'extérieur de l'entreprise.

Le deuxième défi consiste à intégrer des sources de données multiples de manière automatisée, industrielle, afin de transformer des données brutes et hétérogènes en des informations guidant nos actions avec sagesse. A cette fin, EXALEAD CloudView a été doté d'un pipeline de traitement sémantique puissant qui structure et enrichit intelligemment le contenu non structuré et le met en corrélation avec des données structurées.


Collecte de données

  • Contenu Web
    Avec son crawler HTTP capable d'affronter le monde bruyant et encombré du Web, EXALEAD offre aux entreprises un outil puissant et intelligent, unique en son genre, pour extraire du contenu de qualité d'Internet, y compris des données structurées et non structurées issues de sources sécurisées et ouvertes (en respectant les règles et droits d'accès).

Bénéfices

  • Garantit une collecte de données non intrusive, sécurisée et automatisée
  • Crée une vue totalement unifiée des informations
  • Assure de hautes performances à l'échelle des Big Data

Les clients EXALEAD peuvent également rapidement et facilement enrichir leurs bases de données et leurs applications avec le contenu qualitatif extrait de l'index du moteur de recherche Web public d'EXALEAD, aujourd'hui au 3e rang mondial derrière Google et Bing de Microsoft (avec le basculement de Yahoo! vers l'infrastructure de recherche Bing).

Des connecteurs dédiés aux médias sociaux étendent encore davantage les fonctionnalités de collecte de données Web d'EXALEAD, permettant ainsi la capture d'informations pertinentes depuis des sources telles que Facebook, LinkedIn et Twitter.

  • Contenu d'entreprise
    Les connecteurs natifs CloudView sont disponibles pour un large éventail de sources, telles que des serveurs de fichiers, des serveurs XML, des bases de données, des messageries, des systèmes de gestion de contenu et de collaboration, ainsi que la plate-forme ENOVIA.

    L'accord OEM conclu entre EXALEAD et Informatica étend cette connectivité avec un support avancé pour des dizaines de sources de Big Data, telles que des applications d'entreprise, des entrepôts de données, des plate-formes de veille, des mainframes, des magasins NoSQL (par ex. Hadoop HDFS), et des flux de données en temps réel.
  • Systèmes existants et spécifiques
    Le portefeuille de connecteurs natifs d'EXALEAD est complété par une API ouverte et parfaitement documentée, qui assure une connectivité avec les référentiels obsolètes ou spécifiques utilisant des protocoles et langages standards (HTTP/Rest, Java, C#, etc.).

Pour en savoir plus sur les fonctionnalités de capture de données offertes par EXALEAD CloudView, téléchargez la fiche technique EXALEAD Connectors and Formats.

Fusion de données

Si l'on peut créer beaucoup de valeur en étant capable de rechercher, explorer et analyser des ensembles de Big Data séparément, le meilleur potentiel pour faire progresser votre compréhension et l'innovation réside dans le référencement croisé intelligent entre divers silos de données.

Avec une approche de traitement des données similaire à Map/Reduce et des fonctionnalités sémantiques avancées, EXALEAD CloudView est idéal pour agréger des sources de Big Data hétérogènes. Révélez ainsi les sens et relations cachés au sein d'ensembles de données et entre ces ensembles, tels que :

  • Du contenu non structuré comme des documents, des e-mails, des enregistrements d'appels et des vidéos
  • Des données semi-structurées comme des archives XML et des données de machines produites par des compteurs intelligents, des lecteurs RFID, des scanners de codes-barres, des blogs et des unités de suivi GPS
  • Des données relationnelles très structurées comme celles hébergées dans des bases de données transactionnelles et des entrepôts de données