applyConcept - WeAreCAS

Q: À quoi sert l'action 'textRuleScore.applyConcept' ?

L'action 'applyConcept' effectue une extraction de concepts à partir de documents textuels en utilisant un modèle d'extraction de concepts prédéfini (un fichier LI).

Q: Comment spécifier le modèle de concepts à utiliser ?

Utilisez le paramètre 'model' pour spécifier une table CAS d'entrée contenant le modèle LI défini par l'utilisateur. Si ce paramètre est omis, le modèle de base sera utilisé.

Q: Quels paramètres sont nécessaires pour définir les données d'entrée à analyser ?

Vous devez utiliser le paramètre 'table' pour spécifier la table CAS contenant les documents, et le paramètre 'text' pour indiquer le nom de la variable qui contient le texte à traiter.

Q: Quelle est l'utilité du paramètre 'casOut' ?

Le paramètre 'casOut' spécifie la table CAS de sortie qui contiendra les résultats des correspondances de concepts trouvées dans les documents.

Q: Est-il possible d'exclure certains concepts des résultats ?

Oui, le paramètre 'dropConcepts' permet de fournir une liste de concepts à ne pas inclure dans les tables de sortie. Cela est utile pour filtrer les résultats sans modifier le modèle sous-jacent.

Q: Comment le paramètre 'matchType' influence-t-il les résultats ?

Le paramètre 'matchType' détermine le type de correspondance à retourner. Les options sont 'ALL' pour toutes les correspondances (valeur par défaut), 'BEST' pour la meilleure correspondance, et 'LONGEST' pour la plus longue correspondance.

Q: À quoi servent les tables 'factOut' et 'ruleMatchOut' ?

La table 'factOut' contient les informations sur les correspondances de faits, tandis que 'ruleMatchOut' contient les informations sur les correspondances de règles, qui peuvent être utilisées comme entrée pour l'action 'ruleGen'.

Q: Comment peut-on optimiser les performances lors du traitement de grands documents ou de l'utilisation de l'opérateur CLAUS_n ?

Pour améliorer les performances, vous pouvez utiliser le paramètre 'parseTableOut' pour sauvegarder les documents pré-analysés dans une table CAS. Ensuite, dans un appel ultérieur de l'action, utilisez cette table comme entrée via le paramètre 'parseTableIn' pour éviter de ré-analyser le texte.

Sommaire

L'essentiel

L'action applyConcept s'impose comme un outil de précision pour les ingénieurs de données souhaitant transformer le texte brut en actifs structurés au sein de SAS Viya. En exploitant des modèles d'extraction compilés (fichiers LI), cette fonctionnalité CAS identifie des entités spécifiques et des faits complexes grâce à des règles linguistiques avancées. C'est une étape cruciale pour enrichir vos tables de données et automatiser la détection d'informations clés dans de vastes corpus documentaires. Pour vous accompagner dans sa mise en œuvre, nous avons regroupé ici les questions essentielles et les meilleures pratiques techniques concernant cette action.

Description

L'action `applyConcept` effectue une extraction de concepts en utilisant un modèle d'extraction de concepts (fichier LI). Elle permet d'identifier et d'extraire des informations structurées à partir de données textuelles non structurées en se basant sur des règles linguistiques prédéfinies.

textRuleScore.applyConcept { casOut={...}, docId="string", dropConcepts={"string-1", ...}, factOut={...}, language="string", litiChunkSize="string", matchType="ALL"|"BEST"|"LONGEST", model={...}, parseTableIn={...}, parseTableOut={...}, ruleMatchOut={...}, table={...}, text="string" };

Paramètres

Paramètre	Description
casOut	Spécifie la table CAS de sortie qui contient les informations sur les correspondances de concepts.
docId	Spécifie le nom de la variable de la table CAS qui contient les identifiants de document.
dropConcepts	Spécifie une liste de concepts principaux à exclure des tables CAS de sortie.
factOut	Spécifie la table CAS de sortie qui contient les informations sur les correspondances de faits.
language	Spécifie la langue utilisée dans la table d'entrée. La valeur par défaut est "ENGLISH".
litiChunkSize	Spécifie la taille des blocs de données (chunks) utilisés lors du traitement d'un document. La valeur par défaut est "32K". "ALL" traite le document entier en une seule fois.
matchType	Spécifie le type de correspondance à utiliser. "ALL" (par défaut) renvoie toutes les correspondances, "BEST" la meilleure, et "LONGEST" la plus longue.
model	Spécifie une table CAS d'entrée qui contient le modèle LITI défini par l'utilisateur. Si non spécifié, le modèle de base est utilisé.
parseTableIn	Spécifie le nom de la table CAS contenant des documents pré-analysés, créée avec le paramètre `parseTableOut` lors d'un appel précédent.
parseTableOut	Spécifie une table CAS de sortie pour contenir les documents pré-analysés, afin d'améliorer les performances lors d'utilisations futures avec `parseTableIn`.
ruleMatchOut	Spécifie la table CAS de sortie qui contient les informations sur les correspondances de règles. Peut être utilisée comme entrée pour l'action `ruleGen`.
table	Spécifie une table CAS d'entrée qui contient les documents d'entrée à analyser.
text	Spécifie le nom de la variable de la table CAS qui contient le texte à traiter.

Préparation des Données Voir la fiche de ce code dataprep

Création des Données d'Exemple

Ce code crée une table CAS nommée 'reviews' contenant des commentaires de clients. Cette table sera utilisée pour illustrer l'extraction de concepts.

Copié !

1	DATA casuser.reviews;
2	INFILE DATALINES delimiter='\|';
3	LENGTH text $500 id $10;
4	INPUT id$ text$;
5	DATALINES;
6	id1\|Le service client était excellent, très réactif.
7	id2\|Je suis déçu par la qualité du produit. Il s'est cassé après une semaine.
8	id3\|Le produit est bon, mais le support technique est lent.
9	;
10	RUN;

Exemples

Cet exemple simple applique un modèle de concepts (préalablement chargé dans 'mycas.concept_model') sur la colonne 'text' de la table 'reviews' et stocke les correspondances dans 'concept_matches'.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1	PROC CAS;
2	textRuleScore.applyConcept /
3	TABLE={caslib="casuser", name="reviews"},
4	docId="id",
5	text="text",
6	model={caslib="casuser", name="concept_model"},
7	casOut={caslib="casuser", name="concept_matches", replace=true};
8	RUN;

Cet exemple détaillé applique un modèle de concepts, spécifie la langue française, et génère trois tables de sortie : `concept_matches` pour les concepts, `fact_matches` pour les faits, et `rule_matches` pour les détails des règles. Il utilise également `matchType='LONGEST'` pour ne garder que la correspondance la plus longue et `dropConcepts` pour exclure le concept 'product' des résultats.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1	PROC CAS;
2	textRuleScore.applyConcept /
3	TABLE={caslib="casuser", name="reviews"},
4	docId="id",
5	text="text",
6	model={caslib="casuser", name="concept_model"},
7	language="french",
8	matchType="LONGEST",
9	dropConcepts={"product"},
10	casOut={caslib="casuser", name="concept_matches", replace=true},
11	factOut={caslib="casuser", name="fact_matches", replace=true},
12	ruleMatchOut={caslib="casuser", name="rule_matches", replace=true};
13	RUN;

FAQ

À quoi sert l'action 'textRuleScore.applyConcept' ?

Comment spécifier le modèle de concepts à utiliser ?

Quels paramètres sont nécessaires pour définir les données d'entrée à analyser ?

Quelle est l'utilité du paramètre 'casOut' ?

Est-il possible d'exclure certains concepts des résultats ?

Comment le paramètre 'matchType' influence-t-il les résultats ?

À quoi servent les tables 'factOut' et 'ruleMatchOut' ?

Comment peut-on optimiser les performances lors du traitement de grands documents ou de l'utilisation de l'opérateur CLAUS_n ?

Scénarios associés

Cas d'usage

Analyse Standard des Avis Clients d'une Chaîne Hôtelière

Une chaîne hôtelière souhaite analyser des milliers d'avis clients pour identifier rapidement les points forts et les points faibles mentionnés. L'objectif est de catégoriser le...

Voir le scénario

Cas d'usage

Optimisation du Traitement de Volumineux Rapports Médicaux

Un institut de recherche médicale doit analyser des millions de comptes-rendus médicaux pour des études épidémiologiques. Le processus est long et coûteux. L'objectif est d'accé...

Voir le scénario

Cas d'usage

Gestion des Cas Limites dans les Descriptions de Produits E-commerce

Un site de e-commerce veut extraire automatiquement des attributs (marque, produit, couleur) à partir de descriptions textuelles fournies par différents vendeurs. Les données so...

Voir le scénario

Actions associées

textRuleScore

applyCategory

L'action `applyCategory` permet de catégoriser du texte en utilisant un modèl...

textRuleScore

loadTableFromDisk

Charge un fichier binaire de modèle d'analyse des sentiments (SAM), un fichie...

Sommaire

L'essentiel

Description

Création des Données d'Exemple

Exemples

Extraction de Concepts de Base

Extraction de Concepts avec Sorties Multiples et Filtrage

FAQ

Scénarios associés

Cas d'usage

Analyse Standard des Avis Clients d'une Chaîne Hôtelière

Cas d'usage

Optimisation du Traitement de Volumineux Rapports Médicaux

Cas d'usage

Gestion des Cas Limites dans les Descriptions de Produits E-commerce

Actions associées

applyCategory

loadTableFromDisk