AVIS: Le groupe de consultation IDRE Statistical migrera le site Web vers le WordPress CMS en février pour faciliter la maintenance et la création de nouveaux contenus. Certaines de nos anciennes pages seront supprimées ou archivées de sorte qu'elles ne seront plus conservées. Nous essaierons de maintenir les redirections afin que les anciennes URL continuent à fonctionner de la meilleure façon possible. Bienvenue à l'Institut de recherche et d'éducation numériques Aider le Stat Consulting Group en donnant un cadeau Analyse factorielle de sortie annotée Stata Cette page montre un exemple d'analyse factorielle avec des notes de bas de page expliquant la sortie. Nous ferons des axes principaux itérés (option ipf) avec SMC comme communalités initiales conservant trois facteurs (option facteur (3)) suivie de rotations varimax et promax. Ces données ont été recueillies auprès de 1428 étudiants (données complètes sur 1365 observations) et sont des réponses aux items d'une enquête. Nous utiliserons les points 13 à 24 dans notre analyse. une. Valeur propre: Une valeur propre est la variance du facteur. Dans la solution factorielle initiale, le premier facteur compte la plus grande variance, le second compte la prochaine grandeur de variance, et ainsi de suite. Certaines des valeurs propres sont négatives parce que la matrice n'est pas de rang complet, c'est-à-dire, bien qu'il y ait 12 variables, la dimensionnalité de l'espace des facteurs est beaucoup moins Il y a au plus sept facteurs possibles. B. Différence: Donne les différences entre la valeur propre courante et la valeur propre suivante. C. Proportion: Donne la proportion de la variance représentée par le facteur. ré. Cumulatif: Donne la proportion cumulative de la variance comptabilisée par ce facteur plus tous les précédents. E. Charges factorielles: Les charges factorielles pour cette solution orthogonale représentent à la fois la façon dont les variables sont pondérées pour chaque facteur mais aussi la corrélation entre les variables et le facteur. F. Unicité: Donne la proportion de la variance commune de la variable non associée aux facteurs. Unicité est égal à 1 - communauté. g. Chargement des facteurs tournants: Les charges factorielles pour la rotation orthogonale varimax représentent à la fois la façon dont les variables sont pondérées pour chaque facteur mais aussi la corrélation entre les variables et le facteur. Une rotation varimax tente de maximiser les charges au carré des colonnes. H. Unicité: Même valeur que dans e. Dessus parce qu'il est encore une solution à trois facteurs. L'option des blancs affiche uniquement le facteur de chargement supérieur à une valeur spécifique (par exemple 0,3). je. Chargement des facteurs tournants: Les charges factorielles de la rotation oblique promaxe représentent la pondération de chacune des variables pour chaque facteur. Note: il ne s'agit pas de corrélations entre variables et facteurs. La rotation promax permet de corréler les facteurs dans une tentative de mieux rapprocher la structure simple. je. Unicité: Même valeur que dans e. Et h. Dessus parce qu'il est encore une solution à trois facteurs. La commande estat common est une commande de poststimation qui affiche la corrélation entre les facteurs d'une rotation oblique. Le contenu de ce site Web ne doit pas être interprété comme un endossement d'un site Web, d'un livre ou d'un produit logiciel particulier par l'Université de Californie. NOTICE: Le groupe de consultation IDRE Statistical migrera le site Web au WordPress CMS en février pour faciliter L'entretien et la création de nouveaux contenus. Certaines de nos anciennes pages seront supprimées ou archivées de sorte qu'elles ne seront plus conservées. Nous essaierons de maintenir les redirections afin que les anciennes URL continuent à fonctionner de la meilleure façon possible. Bienvenue à l'Institut de recherche et d'éducation numériques Aider le Stat Consulting Group en donnant un cadeau Quelle analyse statistique devrais-je utiliser Statistiques à l'aide de Stata Version info: Le code de cette page a été testé dans Stata 12. Introduction Cette page montre comment effectuer un nombre Des tests statistiques à l'aide de Stata. Chaque section donne une brève description du but du test statistique, quand il est utilisé, un exemple montrant les commandes Stata et Stata sortie avec une brève interprétation de la sortie. Vous pouvez voir la page Choix du test statistique correct pour un tableau qui montre un aperçu de quand chaque test est approprié à utiliser. Pour décider quel test est approprié à utiliser, il est important de considérer le type de variables que vous avez (c'est-à-dire si vos variables sont catégoriques, ordinales ou d'intervalle et si elles sont normalement distribuées), voir Quelle est la différence entre catégorique, ordinal et Pour plus d'informations à ce sujet. À propos du fichier de données hsb La plupart des exemples de cette page utilisent un fichier de données appelé hsb2, au secondaire et au-delà. Ce fichier de données contient 200 observations d'un échantillon d'élèves du secondaire avec des informations démographiques sur les élèves, telles que leur sexe (femme), statut socio-économique (ses) et origine ethnique (race). Il contient également un certain nombre de notes sur les tests normalisés, y compris les tests de lecture (lecture), écriture (écriture), mathématiques (mathématiques) et études sociales (socst). Vous pouvez obtenir le fichier de données hsb2 à partir de Stata en tapant: Un exemple de test t Un test t d'un échantillon nous permet de tester si une moyenne d'échantillon (d'une variable d'intervalle normalement distribuée) diffère significativement d'une valeur hypothétique. Par exemple, en utilisant le fichier de données hsb2. Disons que nous voulons tester si le score d'écriture moyen (écriture) diffère significativement de 50. Nous pouvons le faire comme indiqué ci-dessous. La moyenne de la variable d'écriture pour cet échantillon d'élèves est de 52,775, ce qui est statistiquement significativement différent de la valeur de test de 50. On pourrait conclure que ce groupe d'élèves a une moyenne significativement plus élevée sur le test d'écriture que 50. Un échantillon médian Test Un test médian d'un échantillon nous permet de tester si une médiane d'échantillon diffère significativement d'une valeur hypothétique. Nous allons utiliser la même variable, écrire. Comme nous l'avons fait dans l'exemple d'exemple t de test ci-dessus, mais nous n'avons pas besoin de supposer qu'il s'agit d'un intervalle et normalement distribué (il suffit de supposer que write est une variable ordinal et que sa distribution est symétrique). Nous vérifierons si le score d'écriture médian (écriture) diffère significativement de 50. Les résultats indiquent que la médiane de la variable d'écriture pour ce groupe est statistiquement significativement différente de 50. Test binomial Un test binomial d'un échantillon nous permet de tester si la proportion Des réussites sur une variable dépendante catégorielle à deux niveaux diffère significativement d'une valeur hypothétique. Par exemple, en utilisant le fichier de données hsb2. Disons que nous voulons tester si la proportion de femelles (femelles) diffère significativement de 50, c'est-à-dire de .5. Nous pouvons le faire comme indiqué ci-dessous. Les résultats indiquent qu'il n'y a pas de différence statistiquement significative (p. 2292). En d'autres termes, la proportion de femelles ne diffère pas significativement de la valeur hypothétique de 50. Qualité de l'ajustement du chi-carré Un test de qualité de l'ajustement du chi-carré nous permet de tester si les proportions observées pour une variable catégorielle diffèrent des proportions hypothétiques. Par exemple, supposons que nous croyons que la population générale se compose de 10 hispaniques, 10 asiatiques, 10 afro-américains et 70 Blancs. Nous voulons vérifier si les proportions observées de notre échantillon diffèrent significativement de ces proportions hypothétiques. Pour effectuer le test de qualité chi-carré, vous devez tout d'abord télécharger le programme csgof qui effectue ce test. Vous pouvez télécharger csgof à partir de Stata en tapant findit csgof (voir Comment puis-je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit). Maintenant que le programme csgof est installé, nous pouvons l'utiliser en tapant: Ces résultats montrent que la composition raciale dans notre échantillon ne diffère pas de façon significative des valeurs hypothétiques que nous avons fournies (chi-carré avec trois degrés de liberté 5.03, p.1697) . Deux échantillons indépendants t-test Un test t échantillons indépendants est utilisé lorsque vous voulez comparer les moyennes d'une variable dépendante d'intervalle normalement distribuée pour deux groupes indépendants. Par exemple, en utilisant le fichier de données hsb2. Disons que nous voulons tester si la moyenne pour l'écriture est la même pour les mâles et les femelles. Les résultats indiquent qu'il existe une différence statistiquement significative entre le score moyen d'écriture pour les hommes et les femmes (t -3.7341, p .0002). En d'autres termes, les femmes ont une note statistiquement significativement plus élevée sur l'écriture (54,99) que les hommes (50,12). Test de Wilcoxon-Mann-Whitney Le test de Wilcoxon-Mann-Whitney est un analogue non paramétrique au test t des échantillons indépendants et peut être utilisé lorsque vous ne supposez pas que la variable dépendante est une variable d'intervalle normalement distribuée La variable est au moins ordinaire). Vous remarquerez que la syntaxe de Stata pour le test de Wilcoxon-Mann-Whitney est presque identique à celle du test t des échantillons indépendants. Nous utiliserons le même fichier de données (le fichier de données hsb2) et les mêmes variables dans cet exemple que nous l'avons fait dans l'exemple de test t indépendant ci-dessus et ne supposerons pas que l'écriture. Notre variable dépendante, est normalement distribuée. Les résultats suggèrent qu'il existe une différence statistiquement significative entre les distributions sous-jacentes des scores d'écriture des mâles et les scores d'écriture des femelles (z -3.329, p 0.0009). Vous pouvez déterminer quel groupe a le rang le plus élevé en examinant la façon dont les sommes de rang réelles se comparent aux sommes de rang prévues sous l'hypothèse nulle. La somme des rangs féminins était plus élevée tandis que la somme des rangs masculins était plus faible. Ainsi, le groupe féminin avait un rang plus élevé. Test chi-carré Un test chi-carré est utilisé lorsque vous voulez voir s'il existe une relation entre deux variables catégorielles. Dans Stata, l'option chi2 est utilisée avec la commande tabulate pour obtenir la statistique de test et sa valeur p associée. Utilisation du fichier de données hsb2. Permet de voir s'il existe une relation entre le type d'école fréquentée (schtyp) et les élèves de sexe (féminin). Rappelez-vous que le test du chi-carré suppose que la valeur attendue de chaque cellule est de cinq ou plus. Cette hypothèse est facilement satisfaite dans les exemples ci-dessous. Toutefois, si cette hypothèse n'est pas remplie dans vos données, veuillez consulter la section sur le test exact de Fishers ci-dessous. Ces résultats indiquent qu'il n'y a pas de relation statistiquement significative entre le type d'école fréquentée et le sexe (chi carré avec un degré de liberté 0.0470, p 0.828). Regardons un autre exemple, cette fois-ci, en examinant la relation entre le genre (femme) et le statut socio-économique (ses). Le point de cet exemple est qu'une (ou les deux) variables peuvent avoir plus de deux niveaux, et que les variables ne doivent pas avoir le même nombre de niveaux. Dans cet exemple, la femelle a deux niveaux (mâle et femelle) et ses a trois niveaux (bas, moyen et haut). De nouveau, nous constatons qu'il n'existe pas de relation statistiquement significative entre les variables (chi carré avec deux degrés de liberté 4,5765, p 0,101). Fishers test exact Le test exact de Fishers est utilisé lorsque vous voulez effectuer un test de chi carré, mais une ou plusieurs de vos cellules a une fréquence prévue de cinq ou moins. Rappelez-vous que le test du chi-carré suppose que chaque cellule a une fréquence attendue de cinq ou plus, mais le test exact de Fishers n'a pas cette hypothèse et peut être utilisé quelle que soit la petite fréquence attendue. Dans l'exemple ci-dessous, nous avons des cellules avec des fréquences observées de deux et une, ce qui peut indiquer des fréquences attendues qui pourraient être inférieures à cinq, donc nous utiliserons Fishers test exact avec l'option exacte sur la commande tabulation. Ces résultats suggèrent qu'il n'y a pas de relation statistiquement significative entre la race et le type d'école (p 0.597). Notez que le test exact de Fishers n'a pas une statistique plus quot, mais calcule la valeur p directement. ANOVA unidirectionnelle Une analyse univoque de la variance (ANOVA) est utilisée lorsque vous avez une variable indépendante catégorique (avec deux ou plusieurs catégories) et une variable dépendante d'intervalle normalement distribuée et que vous souhaitez tester les différences dans les moyens de la personne dépendante Variable ventilée par les niveaux de la variable indépendante. Par exemple, en utilisant le fichier de données hsb2. Disons que nous voulons tester si la moyenne d'écriture diffère entre les trois types de programme (prog). La commande pour ce test serait: La moyenne de la variable dépendante diffère significativement entre les niveaux de type de programme. Cependant, nous ne savons pas si la différence est entre seulement deux des niveaux ou tous les trois des niveaux. (Le test F pour le modèle est le même que le test F pour prog parce que prog était la seule variable entrée dans le modèle.) Si d'autres variables avaient également été entrées, le test F pour le modèle aurait été différent de prog. Voir la moyenne d'écriture pour chaque niveau de type de programme, vous pouvez utiliser la commande de tabulation avec l'option de résumé, comme illustré ci-dessous. De ce fait, nous pouvons voir que les étudiants du programme académique ont le plus haut score d'écriture moyenne, tandis que les étudiants dans le programme professionnel ont les plus bas. Test de Kruskal Wallis Le test de Kruskal Wallis est utilisé lorsque vous avez une variable indépendante avec deux niveaux ou plus et une variable dépendante ordinal. En d'autres termes, c'est la version non paramétrique de l'ANOVA et une forme généralisée de la méthode de test de Mann-Whitney puisqu'elle permet 2 groupes ou plus. Nous utiliserons le même fichier de données que l'exemple ANOVA one-way ci-dessus (le fichier de données hsb2) et les mêmes variables que dans l'exemple ci-dessus, mais nous ne supposerons pas que write est une variable d'intervalle normalement distribuée. Si certains des scores reçoivent des rangs liés, un facteur de correction est utilisé, ce qui donne une valeur légèrement différente du chi carré. Avec ou sans liens, les résultats indiquent qu'il existe une différence statistiquement significative entre les trois types de programmes. Test t apparié Un test t apparié (échantillons) est utilisé lorsque vous avez deux observations liées (c'est-à-dire deux observations par sujet) et que vous voulez voir si les moyennes sur ces deux variables d'intervalle normalement réparties diffèrent les unes des autres. Par exemple, en utilisant le fichier de données hsb2, nous testerons si la moyenne de read est égale à la moyenne d'écriture. Ces résultats indiquent que la moyenne de lecture n'est pas statistiquement significativement différente de la moyenne d'écriture (t -0,8673, p 0,3868). Wilcoxon test de somme de rang signé Le test de somme de rang signé de Wilcoxon est la version non paramétrique d'un test t de paires d'échantillons. Vous utilisez le test de somme de rang signé Wilcoxon lorsque vous ne voulez pas supposer que la différence entre les deux variables est l'intervalle et normalement distribué (mais vous supposez que la différence est ordinal). Nous allons utiliser le même exemple que ci-dessus, mais nous ne supposerons pas que la différence entre lire et écrire est l'intervalle et normalement distribué. Les résultats suggèrent qu'il n'y a pas de différence statistiquement significative entre lecture et écriture. Si vous croyez que les différences entre lire et écrire n'étaient pas ordinales, mais simplement classées comme positives et négatives, alors vous voudrez peut-être considérer un test de signe au lieu du test de rang de signe. Encore une fois, nous utiliserons les mêmes variables dans cet exemple et supposerons que cette différence n'est pas ordinaire. Cette sortie donne aussi bien les tests unilatéraux que les tests bilatéraux. En supposant que nous cherchions une différence, nous utiliserions le test bilatéral pour conclure qu'aucune différence statistiquement significative n'a été trouvée (p.5565). Test de McNemar Vous exécuterez le test de McNemars si vous étiez intéressé par les fréquences marginales de deux résultats binaires. Ces résultats binaires peuvent être la même variable de résultat sur les couples appariés (comme une étude cas-témoins) ou deux variables de résultat d'un seul groupe. Par exemple, considérons deux questions, Q1 et Q2, à partir d'un test effectué par 200 élèves. Supposons que 172 élèves ont répondu correctement aux deux questions, 15 ont répondu aux deux questions de façon incorrecte, 7 ont répondu Q1 correctement et Q2 incorrectement, et 6 ont répondu Q2 correctement et Q1 incorrectement. Ces comptes peuvent être considérés dans une table de contingence bidirectionnelle. L'hypothèse nulle est que les deux questions répondent correctement ou incorrectement au même rythme (ou que le tableau de contingence est symétrique). Nous pouvons entrer ces comptes en Stata en utilisant mcci. Une commande des tables d'épidémiologie de Statas. Le résultat est étiqueté conformément aux conventions d'étude cas-témoins. La statistique chi-carré de McNemars suggère qu'il n'y a pas de différence statistiquement significative dans les proportions de bonnes réponses correctes à ces deux questions. Mesures à répétition unidirectionnelles ANOVA Vous effectuez une analyse de variance de mesures répétées à sens unique si vous aviez une variable indépendante catégorielle et une variable dépendante d'intervalle normalement distribuée qui a été répétée au moins deux fois pour chaque sujet. Il s'agit de l'équivalent du test t des échantillons appariés, mais permet deux ou plusieurs niveaux de la variable catégorielle. Ceci teste si la moyenne de la variable dépendante diffère par la variable catégorielle. Nous avons un exemple de jeu de données appelé rb4. Qui est utilisé dans Kirks livre Design expérimental. Dans cet ensemble de données, y est la variable dépendante, a est la mesure répétée et s est la variable qui indique le numéro du sujet. Vous remarquerez que cette sortie donne quatre p-valeurs différentes. Le quotregularquot (0,0001) est la valeur p que l'on obtiendrait si l'on supposait une symétrie composée dans la matrice variance-covariance. Parce que cette hypothèse n'est souvent pas valide, les trois autres valeurs p offrent diverses corrections (le Huynh-Feldt, H-F, Greenhouse-Geisser, G-G et Boxs conservative, Box). Peu importe la valeur p que vous utilisez, nos résultats indiquent que nous avons un effet statistiquement significatif de a au niveau de 0,05. Mesures répétées de régression logistique Si vous avez un résultat binaire mesuré à plusieurs reprises pour chaque sujet et que vous souhaitez exécuter une régression logistique qui tient compte de l'effet de ces mesures multiples de chaque sujet, vous pouvez effectuer une régression logistique de mesures répétées. Dans Stata, cela peut être fait en utilisant la commande xtgee et en indiquant binomial comme distribution de probabilité et logit comme la fonction de lien à utiliser dans le modèle. Le fichier de données d'exercice contient 3 mesures d'impulsion de 30 personnes affectées à 2 régiments de régime différents et 3 régiments différents d'exercice. Si l'on définit une impulsion quothighquot comme étant supérieure à 100, on peut alors prédire la probabilité d'une impulsion élevée en utilisant un régime alimentaire. Tout d'abord, nous utilisons xtset pour définir quelle variable définit les répétitions. Dans cet ensemble de données, il ya trois mesures prises pour chaque id. Nous utiliserons id comme variable de panneau. Ensuite, nous pouvons utiliser i: avant l'alimentation afin que nous puissions créer des variables indicateur au besoin. Ces résultats indiquent que le régime alimentaire n'est pas statistiquement significatif (Z 1,24, p 0,216). ANOVA factorielle Une ANOVA factorielle a deux ou plusieurs variables indépendantes catégoriques (avec ou sans les interactions) et une variable dépendante d'un intervalle normalement distribué normalement. Par exemple, en utilisant le fichier de données hsb2, nous examinerons les variables écrites comme la variable dépendante et le sexe (femme) et le statut socio-économique (ses) comme variables indépendantes, et nous inclurons une interaction de femelle par ses. Notez que dans Stata, vous n'avez pas besoin d'avoir le (s) terme (s) d'interaction dans votre jeu de données. Vous pouvez plutôt demander à Stata de le créer temporairement en plaçant un astérisque entre les variables qui composeront le (s) terme (s) d'interaction. Ces résultats indiquent que le modèle global est statistiquement significatif (F 5,67, p 0,001). Les variables femelles et ses sont également statistiquement significatives (F 16,59, p 0,0001 et F 6,61, p 0,0017, respectivement). Cependant, cette interaction entre femelle et ses n'est pas statistiquement significative (F 0,13, p 0,8753). Test de Friedman Vous effectuez un test de Friedman lorsque vous avez une variable indépendante à l'intérieur de sujets avec deux ou plusieurs niveaux et une variable dépendante qui n'est pas l'intervalle et normalement distribué (mais au moins ordinal). Nous utiliserons ce test pour déterminer s'il ya une différence dans les notes de lecture, d'écriture et de mathématiques. L'hypothèse nulle dans ce test est que la répartition des rangs de chaque type de score (c'est-à-dire lecture, écriture et mathématiques) est la même. Pour effectuer le test Friedman dans Stata, vous devez d'abord télécharger le programme friedman qui effectue ce test. Vous pouvez télécharger friedman à partir de Stata en tapant findit friedman (voir Comment puis-je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit). En outre, vos données devront être transposées de sorte que les sujets soient les colonnes et les variables soient les rangées. Nous utiliserons la commande xpose pour organiser nos données de cette façon. Le chi-carré de Friedmans a une valeur de 0,6175 et une valeur p de 0,7344 et n'est pas statistiquement significatif. Par conséquent, rien n'indique que les distributions des trois types de scores soient différentes. Régression logistique ordonnée La régression logistique ordonnée est utilisée lorsque la variable dépendante est ordonnée, mais pas continue. Par exemple, en utilisant le fichier de données hsb2, nous créerons une variable ordonnée appelée write3. Cette variable aura les valeurs 1, 2 et 3, indiquant un score d'écriture faible, moyen ou élevé. Nous ne recommandons généralement pas de catégoriser une variable continue de cette manière nous créons simplement une variable à utiliser pour cet exemple. Nous utiliserons le sexe (femme), le score de lecture (lecture) et le score d'études sociales (socst) comme variables prédictives dans ce modèle. Les résultats indiquent que le modèle global est statistiquement significatif (p lt. 0000), ainsi que chacune des variables prédictives (p lt .000). Il ya deux points de coupure pour ce modèle parce qu'il ya trois niveaux de la variable de résultat. L'une des hypothèses sous-jacentes à la régression ordinaire logistique (et ordinaire probit) est que la relation entre chaque paire de groupes de résultats est la même. En d'autres termes, la régression logistique ordinaire suppose que les coefficients qui décrivent la relation entre, par exemple, les catégories les plus faibles par rapport à toutes les catégories supérieures de la variable de réponse sont les mêmes que ceux qui décrivent la relation entre la catégorie suivante la plus basse et toutes les catégories supérieures, etc. C'est ce que l'on appelle l'hypothèse des probabilités proportionnelles ou l'hypothèse de la régression parallèle. Comme la relation entre toutes les paires de groupes est la même, il n'y a qu'un seul ensemble de coefficients (un seul modèle). Si ce n'était pas le cas, nous aurions besoin de différents modèles (comme un modèle logit ordonné généralisé) pour décrire la relation entre chaque paire de groupes de résultats. Pour tester cette hypothèse, nous pouvons utiliser la commande omodel (findit omodel, voir Comment puis-je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit) ou la commande brant. Nous allons montrer les deux ci-dessous. Ces deux tests indiquent que l'hypothèse des cotes proportionnelles n'a pas été violée. Régression logistique factorielle Une régression logistique factorielle est utilisée lorsque vous avez deux variables catégorielles indépendantes ou plus, mais une variable dépendante dichotomique. Par exemple, en utilisant le fichier de données hsb2, nous utiliserons la femelle comme variable dépendante, parce qu'elle est la seule variable dichotomique (01) de notre ensemble de données, certainement pas parce qu'il est courant d'utiliser le genre comme variable de résultat. Nous utiliserons le type de programme (prog) et le type d'école (schtyp) comme variables prédictives. Parce que prog est une variable catégorique (il a trois niveaux), nous devons créer des codes fictifs pour cela. L'utilisation de i. Prog fait cela. Vous pouvez utiliser la commande logit si vous voulez voir les coefficients de régression ou la commande logistique si vous voulez voir les rapports de cotes. Les résultats indiquent que le modèle global n'est pas statistiquement significatif (LR chi2 3,15, p 0,6774). En outre, aucun des coefficients n'est statistiquement significatif non plus. Nous pouvons utiliser la commande test pour obtenir le test de l'effet global de prog comme montré ci-dessous. Cela montre que l'effet global du prog n'est pas statistiquement significatif. De même, nous pouvons utiliser la commande testparm pour obtenir le test de l'effet global de l'interaction prog par schtyp, comme indiqué ci-dessous. Ceci montre que l'effet global de cette interaction n'est pas statistiquement significatif. Si vous préférez, vous pouvez utiliser la commande logistique pour voir les résultats sous forme de rapports de cotes, comme indiqué ci-dessous. Corrélation Une corrélation est utile lorsque vous voulez voir la relation linéaire entre deux (ou plus) variables d'intervalle normalement distribuées. Par exemple, en utilisant le fichier de données hsb2, nous pouvons exécuter une corrélation entre deux variables continues, lire et écrire. Dans le deuxième exemple, nous allons établir une corrélation entre une variable dichotomique, femelle. Et une variable continue, écrire. Bien que l'on suppose que les variables sont l'intervalle et normalement distribuées, nous pouvons inclure des variables fictives lors de l'exécution des corrélations. Dans le premier exemple ci-dessus, on voit que la corrélation entre lecture et écriture est de 0,5968. En quadrillant la corrélation puis en multipliant par 100, vous pouvez déterminer quel pourcentage de la variabilité est partagé. Permet de 0,5968 à 0,6, qui, au carré serait de 0,36, multiplié par 100 serait de 36. Par conséquent, lire les actions d'environ 36 de sa variabilité avec l'écriture. Dans la sortie pour le deuxième exemple, nous pouvons voir la corrélation entre l'écriture et la femelle est 0.2565. L'équarissage de ce nombre donne 0,06579225, ce qui signifie que la femelle partage environ 6,5 de sa variabilité avec l'écriture. Régression linéaire simple La régression linéaire simple nous permet d'examiner la relation linéaire entre un prédicteur d'intervalle normalement distribué et une variable de résultat d'intervalle normalement distribué. Par exemple, en utilisant le fichier de données hsb2. Disons que nous voulons examiner la relation entre les scores d'écriture (écriture) et les scores de lecture (lire) en d'autres termes, la prédiction écriture de lire. On voit que la relation entre écriture et lecture est positive (.5517051) et sur la base de la valeur t (10.47) et de la valeur p (0.000), nous conclurons que cette relation est statistiquement significative. Par conséquent, on dirait qu'il existe une relation linéaire positive statistiquement significative entre la lecture et l'écriture. Corrélation non paramétrique Une corrélation de Spearman est utilisée lorsqu'une ou les deux variables ne sont pas supposées être normalement distribuées et l'intervalle (mais sont supposés ordinaux). Les valeurs des variables sont converties en rangs puis mises en corrélation. Dans notre exemple, nous allons chercher une relation entre lire et écrire. Nous ne supposerons pas que ces deux variables sont normales et intervalles. Les résultats suggèrent que la relation entre lecture et écriture (rho 0.6167, p 0.000) est statistiquement significative. Régression logistique simple La régression logistique suppose que la variable de résultat est binaire (c.-à-d. Codée 0 et 1). Nous n'avons qu'une seule variable dans le fichier de données hsb2 qui est codé 0 et 1, et qui est femelle. Nous comprenons que la femelle est une variable de résultat stupide (il serait plus logique de l'utiliser comme variable prédictive), mais nous pouvons utiliser female comme variable de résultat pour illustrer comment le code de cette commande est structuré et comment interpréter la sortie. La première variable listée après la commande logistique (ou logit) est la variable de résultat (ou dépendante), et toutes les autres variables sont des variables prédictives (ou indépendantes). Vous pouvez utiliser la commande logit si vous voulez voir les coefficients de régression ou la commande logistique si vous voulez voir les rapports de cotes. Dans notre exemple, la femelle sera la variable résultat, et lue sera la variable prédictive. Comme pour la régression des MCO, les variables prédictives doivent être dichotomiques ou continues et ne peuvent être catégoriques. Les résultats indiquent que le score de lecture (lu) n'est pas un prédicteur statistiquement significatif du sexe (c'est-à-dire étant une femme), z -0,75, p 0,453. De même, le test du modèle global n'est pas statistiquement significatif, LR chi carré 0,56, p 0,4527. Régression multiple La régression multiple est très similaire à la régression simple, sauf que dans la régression multiple, vous avez plus d'une variable prédictive dans l'équation. Par exemple, en utilisant le fichier de données hsb2, nous allons prédire la note d'écriture à partir des notes de sexe (femme), de lecture, de mathématiques, de sciences et d'études sociales (socst). Les résultats indiquent que le modèle global est statistiquement significatif (F 58.60, p 0.0000). De plus, toutes les variables prédictives sont statistiquement significatives sauf pour la lecture. Analyse de la covariance L'analyse de covariance est comme ANOVA, sauf qu'en plus des prédicteurs catégoriques, vous avez aussi des prédicteurs continus. Par exemple, l'exemple ANOVA unidirectionnel utilisé écrit comme variable dépendante et prog comme variable indépendante. Permet d'ajouter la lecture comme une variable continue à ce modèle, comme indiqué ci-dessous. Les résultats indiquent que, même après ajustement pour le score de lecture (lire), les scores d'écriture diffèrent encore sensiblement selon le type de programme (prog) F 5,87, p 0,0034. La régression logistique multiple est comme une simple régression logistique, sauf qu'il y a deux ou plusieurs prédicteurs. Les prédicteurs peuvent être des variables d'intervalle ou des variables fictives, mais ne peuvent pas être des variables catégorielles. Si vous avez des prédicteurs catégoriques, ils doivent être codés en une ou plusieurs variables fictives. Nous n'avons qu'une seule variable dans notre ensemble de données qui est codée 0 et 1, et qui est femelle. Nous comprenons que la femelle est une variable de résultat stupide (il serait plus logique de l'utiliser comme variable prédictive), mais nous pouvons utiliser female comme variable de résultat pour illustrer comment le code de cette commande est structuré et comment interpréter la sortie. La première variable listée après la commande logistique (ou logit) est la variable de résultat (ou dépendante), et toutes les autres variables sont des variables prédictives (ou indépendantes). Vous pouvez utiliser la commande logit si vous voulez voir les coefficients de régression ou la commande logistique si vous voulez voir les rapports de cotes. Dans notre exemple, la femelle sera la variable résultat, et la lecture et l'écriture seront les variables prédictives. Ces résultats montrent que la lecture et l'écriture sont des prédicteurs significatifs de la femme. Analyse discriminante L'analyse discriminante est utilisée lorsque vous avez une ou plusieurs variables indépendantes d'intervalle normalement distribuées et une variable dépendante catégorique. C'est une technique multivariée qui considère les dimensions latentes dans les variables indépendantes pour prédire l'appartenance au groupe dans la variable dépendante catégorique. Par exemple, en utilisant le fichier de données hsb2. Disons que nous voulons utiliser lire. D'écriture et de mathématiques pour prédire le type de programme auquel un étudiant appartient (prog). Pour cette analyse, vous devez d'abord télécharger le programme daoneway qui effectue ce test. Vous pouvez télécharger daoneway à partir de Stata en tapant findit daoneway (voir Comment puis-je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit). Vous pouvez alors effectuer l'analyse de fonction discriminante comme ceci. De toute évidence, la sortie Stata pour cette procédure est longue, et il est au-delà de la portée de cette page pour expliquer tout cela. Cependant, le point principal est que deux variables canoniques sont identifiées par l'analyse, la première d'entre elles semble être plus liée au type de programme que la seconde. Pour plus d'informations, consultez cette page sur l'analyse des fonctions discriminantes. MANOVA (analyse multivariée de la variance) est comme ANOVA, sauf qu'il y a deux ou plusieurs variables dépendantes. Dans un MANOVA unidirectionnel, il existe une variable indépendante catégorielle et deux ou plusieurs variables dépendantes. Par exemple, en utilisant le fichier de données hsb2. Disons que nous voulons examiner les différences de lecture. Écriture et mathématiques ventilés par type de programme (prog). Pour cette analyse, vous pouvez utiliser la commande manova, puis effectuer l'analyse comme celle-ci. Cette commande produit trois statistiques de test différentes qui sont utilisées pour évaluer la signification statistique de la relation entre la variable indépendante et les variables de résultat. Selon les trois critères, les étudiants dans les différents programmes diffèrent dans leur distribution conjointe de lecture. Écriture et mathématiques. Régression multiple multivariée La régression multiple multivariée est utilisée lorsque vous avez deux ou plusieurs variables dépendantes qui doivent être prédites à partir de deux variables prédictives ou plus. Dans notre exemple, nous allons prédire l'écriture et la lecture de la femme. math . Sciences et études sociales (socst). De nombreux chercheurs familiers avec l'analyse multivariée classique peuvent ne pas reconnaître les tests ci-dessus. Ils ne voient pas Wilks Lambda, Pillais Trace ou les statistiques d'Hotelling-Lawley Trace, les statistiques qui leur sont familières. Il est possible d'obtenir ces statistiques en utilisant la commande mvtest écrite par David E. Moore de l'Université de Cincinnati. UCLA a mis à jour cette commande pour qu'elle fonctionne avec Stata 6 et plus. Vous pouvez télécharger mvtest à partir de Stata en tapant findit mvtest (voir Comment puis-je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit). Maintenant que nous l'avons téléchargé, nous pouvons utiliser la commande ci-dessous. Ces résultats montrent que la femelle a une relation significative avec la distribution conjointe de l'écriture et de la lecture. La commande mvtest pourrait alors être répétée pour chacune des autres variables de prédiction. Corrélation canonique La corrélation canonique est une technique multivariée utilisée pour examiner la relation entre deux groupes de variables. Pour chaque ensemble de variables, il crée des variables latentes et examine les relations entre les variables latentes. Il suppose que toutes les variables dans le modèle sont l'intervalle et normalement distribuées. Stata requires that each of the two groups of variables be enclosed in parentheses. There need not be an equal number of variables in the two groups. The output above shows the linear combinations corresponding to the first canonical correlation. At the bottom of the output are the two canonical correlations. These results indicate that the first canonical correlation is .7728. You will note that Stata is brief and may not provide you with all of the information that you may want. Several programs have been developed to provide more information regarding the analysis. You can download this family of programs by typing findit cancor (see How can I used the findit command to search for programs and get additional help for more information about using findit ). Because the output from the cancor command is lengthy, we will use the cantest command to obtain the eigenvalues, F-tests and associated p-values that we want. Note that you do not have to specify a model with either the cancor or the cantest commands if they are issued after the canon command. The F-test in this output tests the hypothesis that the first canonical correlation is equal to zero. Clearly, F 56.4706 is statistically significant. However, the second canonical correlation of .0235 is not statistically significantly different from zero (F 0.1087, p 0.7420). Factor analysis Factor analysis is a form of exploratory multivariate analysis that is used to either reduce the number of variables in a model or to detect relationships among variables. All variables involved in the factor analysis need to be continuous and are assumed to be normally distributed. The goal of the analysis is to try to identify factors which underlie the variables. There may be fewer factors than variables, but there may not be more factors than variables. For our example, lets suppose that we think that there are some common factors underlying the various test scores. We will first use the principal components method of extraction (by using the pc option) and then the principal components factor method of extraction (by using the pcf option). This parallels the output produced by SAS and SPSS. Now lets rerun the factor analysis with a principal component factors extraction method and retain factors with eigenvalues of .5 or greater. Then we will use a varimax rotation on the solution. Note that by default, Stata will retain all factors with positive eigenvalues hence the use of the mineigen option or the factors() option. The factors() option does not specify the number of solutions to retain, but rather the largest number of solutions to retain. From the table of factor loadings, we can see that all five of the test scores load onto the first factor, while all five tend to load not so heavily on the second factor. Uniqueness (which is the opposite of commonality) is the proportion of variance of the variable (i. e. read ) that is not accounted for by all of the factors taken together, and a very high uniqueness can indicate that a variable may not belong with any of the factors. Factor loadings are often rotated in an attempt to make them more interpretable. Stata performs both varimax and promax rotations. The purpose of rotating the factors is to get the variables to load either very high or very low on each factor. In this example, because all of the variables loaded onto factor 1 and not on factor 2, the rotation did not aid in the interpretation. Instead, it made the results even more difficult to interpret. To obtain a scree plot of the eigenvalues, you can use the greigen command. We have included a reference line on the y-axis at one to aid in determining how many factors should be retained.
No comments:
Post a Comment