Veröffentlicht am :

Analyse und Transformation von Produktdaten

Dieser Code ist auch verfügbar auf: English Español Français
Wartet auf Validierung
Das Hauptziel dieses Skripts ist es, ein tiefgehendes Verständnis einer Produktdatenbank zu vermitteln und relevante Informationen hinzuzufügen. Es beginnt mit der Einrichtung einer Verknüpfung zu einem externen Ordner über eine LIBNAME-Anweisung. Anschließend werden die Struktur und der Inhalt des Datensatzes 'cadastro_produto' überprüft. Deskriptive statistische Analysen (univariate und Kreuztabellenhäufigkeiten) werden für Variablen wie 'gênero', 'plataforma' und 'nome' durchgeführt. Ein DATA STEP wird verwendet, um eine binäre Variable 'lancamento' basierend auf dem Datum zu erstellen, die angibt, ob ein Produkt eine 'Einführung' ist. Schließlich speichert das Skript eine aktualisierte Version des Datensatzes mit dieser neuen, zur besseren Verständlichkeit umbenannten Variable und verbesserten Beschriftungen, um die Interpretation zukünftiger Berichte zu erleichtern.
Datenanalyse

Type : EXTERNE


Das Skript verwendet den Datensatz 'cadastro_produto', der über die Bibliothek 'alura' aus dem Ordner '/folders/myfolders/AluraPlay' geladen wird. Dieser Datensatz wird nicht innerhalb des SAS-Skripts erstellt oder generiert, sondern wird als im angegebenen Pfad vorhanden vorausgesetzt.

1 Codeblock
LIBNAME / PROC DATASETS
Erklärung :
Deklariert eine SAS-Bibliothek namens 'alura', die auf den angegebenen Ordnerpfad verweist. Anschließend wird PROC DATASETS verwendet, um detaillierte Informationen über die in dieser Bibliothek enthaltenen Tabellen aufzulisten, um die Existenz der erwarteten Datensätze zu überprüfen.
Kopiert!
1/* Declara o atalho para a minha pasta da AluraPlay */
2LIBNAME alura "/folders/myfolders/AluraPlay";
3 
4* Vou checar o meu diretório da Alura ;
5PROC DATASETS
6 lib=alura details;
7RUN;
2 Codeblock
PROC CONTENTS
Erklärung :
Zeigt die Metadaten (Wörterbuch) des Datensatzes 'alura.cadastro_produto' an, einschließlich Variablennamen, deren Typen, Längen, Formate und andere Attribute, um einen Überblick über die Struktur des Quelldatensatzes zu geben.
Kopiert!
1* Checa o conteúdo da minha base de cadastro produto ;
2PROC CONTENTS
3 DATA=alura.cadastro_produto;
4RUN;
3 Codeblock
PROC PRINT
Erklärung :
Gibt den gesamten Datensatz 'alura.cadastro_produto' in der Standardausgabe aus, was eine schnelle visuelle Überprüfung der ersten Beobachtungen ermöglicht.
Kopiert!
1* Imprime a minha base de cadastro produto ;
2PROC PRINT
3 DATA=alura.cadastro_produto;
4RUN;
4 Codeblock
PROC FREQ
Erklärung :
Generiert univariate Häufigkeitstabellen für die kategorialen Variablen 'genero', 'plataforma' und 'nome' des Datensatzes 'alura.cadastro_produto'. Die Option NLEVELS zeigt die Anzahl der eindeutigen Stufen für jede Variable an, was für die Datenexploration nützlich ist.
Kopiert!
1* Gera as frquencias das variáveis Gênero, Plataforma e Nome ;
2PROC FREQ
3 DATA=alura.cadastro_produto nlevels;
4 TABLE genero plataforma nome;
5RUN;
5 Codeblock
DATA STEP Data
Erklärung :
Erstellt einen neuen temporären Datensatz namens 'teste' durch Kopieren von 'alura.cadastro_produto'. Eine neue Variable 'lancamento' wird erstellt: Sie nimmt den Wert 1 an, wenn die Variable 'data' größer als '201606' ist (was eine kürzliche Einführung anzeigt), und 0 sonst. Dies wandelt ein Datum in einen binären Indikator um.
Kopiert!
1/* Cria uma nova base com a variável de flag de lançamento */
2DATA teste;
3SET alura.cadastro_produto;
4 
5IF DATA > 201606
6 THEN lancamento = 1;
7 ELSE lancamento = 0;
8 
9RUN;
6 Codeblock
PROC PRINT
Erklärung :
Gibt den Inhalt des Datensatzes 'teste' aus, um die korrekte Erstellung der Variablen 'lancamento' visuell zu überprüfen.
Kopiert!
1* Imprime minha nova base ;
2PROC PRINT
3 DATA=teste;
4RUN;
7 Codeblock
PROC FREQ
Erklärung :
Generiert eine Häufigkeitstabelle für die neue Variable 'lancamento' im Datensatz 'teste', die die Verteilung der als 'Einführungen' betrachteten Produkte im Vergleich zu anderen zeigt.
Kopiert!
1* Gera a tabela de frequência da minha variável de laçamento ;
2PROC FREQ
3 DATA=teste;
4 TABLE lancamento;
5RUN;
8 Codeblock
PROC FREQ
Erklärung :
Generiert eine Kreuztabelle zwischen 'genero' und 'lancamento' aus dem Datensatz 'teste'. Die Optionen NOROW, NOCOL und NOPERCENT unterdrücken Zeilen-, Spalten- und Gesamtprozentsätze und zeigen nur die Häufigkeiten für eine gezielte Analyse an.
Kopiert!
1* Gera a frequencia cruzada das variáveis Gênero e Lançamento ;
2PROC FREQ
3 DATA=teste;
4 TABLE genero*lancamento
5 /norow nocol nopercent;
6RUN;
9 Codeblock
PROC FREQ
Erklärung :
Generiert eine Kreuztabelle zwischen 'nome' und 'genero' aus dem ursprünglichen Datensatz 'alura.cadastro_produto'. Die Option LIST zeigt die Kontingenztafel in Listenform an, was bei Kombinationen mit vielen Stufen nützlich ist. NLEVELS zeigt die Anzahl der eindeutigen Stufen für jede Variable an.
Kopiert!
1* Gera a lista cruzada das variáveis Nome e Gênero ;
2PROC FREQ
3 DATA=alura.cadastro_produto nlevels;
4 *table nome;
5 TABLE nome*genero
6 / list;
7RUN;
10 Codeblock
DATA STEP Data
Erklärung :
Erstellt den finalen Datensatz 'alura.cadastro_produto_v2' durch Kopieren von 'teste'. Die Variable 'lancamento' wird zur besseren Klarheit in 'flag_lancamento' umbenannt. Beschriftungen (Labels) werden den Variablen 'Genero' und 'lancamento' zugewiesen, um die Datendokumentation zu erweitern und die Lesbarkeit der Berichtsoutputs zu verbessern.
Kopiert!
1/* Salva a minha base intermendiária no diretório da AluraPlay */
2DATA alura.cadastro_produto_v2;
3SET teste;
4rename lancamento = flag_lancamento;
5label Genero = "Gênero"
6 lancamento = "Marque 1 pour les jeux qui sont un lancement et 0 sinon";
7RUN;
11 Codeblock
PROC CONTENTS
Erklärung :
Überprüft die Metadaten des finalen Datensatzes 'alura.cadastro_produto_v2', um zu bestätigen, dass alle Änderungen (Variablenumbenennung, Anwenden von Beschriftungen) korrekt durchgeführt wurden.
Kopiert!
1* Checar se minha base 'cadastro_produto_v2' foi criada corretamente ;
2PROC CONTENTS
3 DATA=alura.cadastro_produto_v2;
4RUN;
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.