Data mining

EXALEAD CloudView est pensé pour identifier, extraire et traiter des informations à partir de données textuelles et multimédia, au sein de l'entreprise aussi bien que sur le Web. Nos utilisateurs réalisent notamment du text mining, du Web data mining, des analyses multimédia et des analyses de sentiment.

Les différents types de Data Mining

Text mining

Le text mining, ou analyse de données textuelles, est un processus qui consiste à identifier et extraire les données et références significatives contenues dans un texte, au cœur de celui-ci et sur le plan contextuel. Cette information enrichie est utilisée pour rendre les résultats de recherche plus pertinents, pour classer et regrouper automatiquement les données pour la navigation et le filtrage, mais aussi en tant que support à des analyses qualitatives et quantitatives. Elle permet en outre d'intégrer des données structurées et non structurées à un ensemble cohérent (par exemple, intégrer des données de CRM à des contenus de médias sociaux ou des journaux de logs).

Parmi les éditeurs proposant des outils d'analyse de texte, EXALEAD est le seul à être capable d'appliquer un traitement puissant à une très large échelle en utilisant un nombre minimal de serveurs. Il est également unique de par la modularité et la configurabilité de son pipeline de traitement sémantique.

Bénéfices

  • Révèle des informations pertinentes cachées au sein de données non structurées
  • Ajoute du contexte utile à des données structurées

Web data mining

En Web data mining, on cherche à identifier, extraire et traiter du contenu web pertinent en fonction d'objectifs d'indexation spécifiques. A titre d'exemple, extraire des détails pertinents des catalogues en ligne d'un fournisseur pour valider, enrichir et étendre une base de données interne de pièces, ou bien glaner des informations sur le marché de l'immobilier à partir d'annonces classées en ligne (voir le cas client AKERYS.).

Pour obtenir des résultats optimaux en explorant la principale source de Big Data dans le monde, le Web, EXALEAD propose un écosystème d'indexation discriminante qui produit des résultats de haute qualité tout en maximisant les performances et minimisant la taille de l'index. Ses principales fonctions :

  • Capture exhaustive de données
    Le système peut capturer du contenu web dans une forme non structurée, semi-structurée ou structurée, y compris du contenu du web profond qui est généré dynamiquement à la suite d'entrées de formulaires et/ou de requêtes dans des bases de données.
  • Filtrage qualitatif
    La plate-forme assure un filtrage qualitatif configurable, par exemple en excluant certains types de documents, en traitant le contenu d'un site en tant que page unique pour éviter d'écarter d'autres sources pertinentes (réduction du site web), ou encore en détectant et appliquant des règles spécifiques au contenu dupliqué ou similaire (near-duplicate).
  • Haute performance
    Visant une performance maximale, CloudView vous permet de réguler l'indexation en étendue et en profondeur en fonction des ressources et des besoins de votre entreprise, et d'adopter une stratégie de mise à jour limitée, ciblant exclusivement les contenus nouveaux ou modifiés plutôt que de réindexer tout le contenu.

CloudView a également des capacités hors pair pour vous éviter de placer une charge inutile sur le site visité ou de violer des politiques de propriété des données et de respect de la vie privée.

Une fois que votre contenu web est collecté, EXALEAD CloudView le prépare à être exploité avec les fonctionnalités avancées de traitement sémantique décrites au paragraphe Text mining.

Analyse multimédia

Le contenu multimédia est le type de contenu généré par les utilisateurs qui croît le plus rapidement, avec des millions de photos, de fichiers audio et de vidéos chargés quotidiennement sur le web et les serveurs d'entreprise. Exploiter ce type de contenu à l'échelle des Big Data est impossible si l'on ne s'appuie que sur les tags manuels ou les métadonnées associées basiques comme les noms de fichiers, pour accéder au contenu et le comprendre.

Or, EXALEAD CloudView s'intègre parfaitement à des technologies telles que la transcription directe d'un discours oral en texte et le traitement de reconnaissance d'objets (recherche d'images par le contenu - CBIR), permettant aux utilisateurs de structurer du contenu multimédia de l'intérieur, en assurant une accessibilité nouvelle et indispensable aux collections multimédia volumineuses, et en facilitant le développement d'applications innovantes dans des domaines tels que la médecine, les médias, la publication, les sciences environnementales, la police scientifique et la gestion de ressources numériques.

Analyse de sentiments

L'approche d'analyse de sentiments de CloudView utilise les technologies sémantiques pour découvrir, extraire et résumer les émotions et attitudes exprimées dans du contenu non structuré. Ce traitement est parfois appliqué à du contenu protégé par des pare-feu comme des e-mails, des enregistrements d'appels et/ou des études de consommateurs/acteurs du secteur. Cependant, il est le plus souvent appliqué au web, le référentiel le plus complet au monde de sentiments sur tous les sujets : les idées, les produits, les personnalités, les entreprises, etc.

L'analyse de sentiments sur le web implique généralement la collecte de données à partir de sources web sélectionnées (sites de l'industrie, médias, blogs, forums, réseaux sociaux, etc.), le référencement croisé de ce contenu avec les entités cible représentées dans des systèmes internes (services, produits, personnes, programmes...), et enfin l'extraction et le résumé de ces sentiments exprimés dans le contenu référencé dans l'index CloudView.

Une fois que cette base de connaissances regroupant les données de sentiments a été créée, elle peut être exploitée à l'aide d'une recherche plein texte et d'une navigation à facettes, avec la génération de tableaux de bord quantitatifs et une analyse exploratoire libre. Pour en savoir plus, consultez la section Analyse de sentiments de la page L'Analyse pour tous.