compileConcept - WeAreCAS

Q: À quoi sert l'action `compileConcept` ?

L'action `compileConcept` construit un modèle de concept en utilisant la configuration de concept et des entités prédéfinies.

Q: Quel est le but du paramètre `casOut` ?

Le paramètre `casOut` spécifie la table CAS de sortie qui contiendra le modèle de concept sous forme binaire. Cette table de sortie peut ensuite être utilisée par les actions `tpParse` et `tmMine`.

Q: Que fait le paramètre `enablePredefined` ?

Ce paramètre booléen spécifie si les entités prédéfinies doivent être incluses ou non lors de la compilation du modèle de concept. La valeur par défaut est FALSE (faux).

Q: Comment spécifier la langue pour la compilation du concept ?

Utilisez le paramètre `language` pour spécifier la langue des binaires linguistiques à utiliser. La langue par défaut est l'anglais ("ENGLISH").

Q: À quoi sert le paramètre `tokenizer` et quelles sont ses options ?

Le paramètre `tokenizer` spécifie le type de tokenizer à utiliser. L'option "STANDARD" (par défaut) utilise un tokenizer spécifique à la langue. L'option "BASIC" utilise un tokenizer de base qui sépare les mots par les espaces, la ponctuation et les caractères pour le chinois, le japonais, le coréen et le thaï. L'option "BASIC" n'est disponible que pour ces langues spécifiques.

Description

Construit un modèle de concept en utilisant la configuration de concept et les entités prédéfinies.

textRuleDevelop.compileConcept <result=results> <status=rc> / casOut={casouttable}, config="string", enablePredefined=TRUE | FALSE, language="string", predefinedSentiment=TRUE | FALSE, ruleId="string", table={castable}, tokenizer="BASIC" | "STANDARD";

Paramètres

Paramètre	Description
casOut	Spécifie la table CAS de sortie qui contient le binaire du modèle de concept. Cette table peut être utilisée par les actions tpParse et tmMine.
config	Spécifie le nom de la variable de la table CAS qui contient les informations de configuration pour compiler le modèle de concept.
enablePredefined	Spécifie si les entités prédéfinies doivent être incluses lors de la compilation du modèle de concept.
language	Spécifie la langue utilisée pour définir les binaires linguistiques.
predefinedSentiment	Si vrai, le modèle de sentiment prédéfini pour la langue spécifiée avec le paramètre language= sera étendu.
ruleId	Spécifie le nom de la variable de la table CAS qui contient les identifiants des règles.
table	Spécifie une table CAS d'entrée qui contient les informations de configuration du concept.
tokenizer	Spécifie quel tokenizer utiliser dans le modèle de concept. 'STANDARD' (défaut) utilise un tokenizer spécifique à la langue. 'BASIC' sépare les mots par des espaces, des signes de ponctuation et des caractères CJK ; il n'est disponible que pour le chinois, le japonais ou le coréen.

Préparation des Données Voir la fiche de ce code dataprep

Création des Données de Règles de Concept

Ce bloc de données crée une table SAS nommée 'concepts_in' contenant les règles pour un modèle de concept. Chaque ligne définit une règle avec un ID et sa définition de configuration LITI.

Copié !

1	DATA concepts_in;
2	LENGTH rule_id $ 20 config $ 500;
3	INFILE DATALINES dsd dlm='\|';
4	INPUT rule_id $ config;
5	DATALINES;
6	concept1\|CONCEPT:concept1
7	concept2\|CONCEPT:concept2:test
8	;
9	RUN;

Exemples

Cet exemple montre comment compiler un ensemble de règles de concept à partir d'une table d'entrée pour créer un modèle de concept binaire dans une table de sortie.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1	PROC CAS;
2	load DATA=sashelp.concepts_in casout='concepts_in' replace;
3	textRuleDevelop.compileConcept /
4	TABLE={name='concepts_in'},
5	casOut={name='concept_model', replace=true},
6	ruleId='rule_id',
7	config='config';
8	RUN;

Cet exemple illustre l'utilisation du tokenizer 'BASIC' pour la compilation de concepts, ce qui est utile pour les langues comme le chinois, le japonais ou le coréen afin d'améliorer la correspondance des règles en segmentant le texte différemment du tokenizer standard.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1	PROC CAS;
2	load DATA=sashelp.concepts_in casout='concepts_in' replace;
3	textRuleDevelop.compileConcept /
4	TABLE={name='concepts_in'},
5	casOut={name='concept_model_basic', replace=true},
6	ruleId='rule_id',
7	config='config',
8	language='JAPANESE',
9	tokenizer='BASIC';
10	RUN;

FAQ

À quoi sert l'action `compileConcept` ?

Quel est le but du paramètre `casOut` ?

Que fait le paramètre `enablePredefined` ?

Comment spécifier la langue pour la compilation du concept ?

À quoi sert le paramètre `tokenizer` et quelles sont ses options ?

Scénarios associés

Cas d'usage

Extraction d'Entités Médicales et Temporelles

Un hôpital universitaire souhaite analyser des comptes-rendus cliniques non structurés pour identifier automatiquement les effets secondaires de médicaments (concepts personnali...

Voir le scénario

Cas d'usage

Analyse de Sentiment Fine sur Caractéristiques Produits

Une plateforme e-commerce veut aller au-delà du sentiment global positif/négatif. Elle souhaite compiler un modèle complexe capable de détecter des sentiments spécifiques liés à...

Voir le scénario

Cas d'usage

Traitement de Tickets Support en Japonais (Cas Limite Tokenizer)

Le support technique d'une multinationale reçoit des tickets en Japonais. Les règles standards de découpage des mots (basées sur les espaces) ne fonctionnent pas. Le test vise à...

Voir le scénario

Actions associées

textRuleDevelop

compileCategory

L'action `compileCategory` est utilisée pour construire un modèle de catégori...

textRuleDevelop

exportTextModel

L'action exportTextModel permet de compiler et d'exporter des modèles de règl...

Sommaire

Description

Création des Données de Règles de Concept

Exemples

Générer un Modèle de Concept

Déterminer les Limites de Phrases avec le Tokenizer de Base

FAQ

Scénarios associés

Cas d'usage

Extraction d'Entités Médicales et Temporelles

Cas d'usage

Analyse de Sentiment Fine sur Caractéristiques Produits

Cas d'usage

Traitement de Tickets Support en Japonais (Cas Limite Tokenizer)

Actions associées

compileCategory

exportTextModel