可以通过分析这个变量来回答以下问题: 在CGSS2021数据集中,性别的分布情况如何?不同性别的被调查者在其他变量上是否存在差异? 作者希望通过性别在不同因素上的表现差异进行总结和原因分析。
数据科学导论期末作业
202218093003刘子祺
2023-07-10
未使用Chat GPT,作业有许多不完善之处,希望老师多包涵
主要从性别的角度切入——
问题分析说明:
可以通过分析这个变量来回答以下问题: 在CGSS2021数据集中,性别的分布情况如何?不同性别的被调查者在其他变量上是否存在差异? 希望通过性别在不同因素上的表现差异进行总结和原因分析
已有研究简述:
过去的研究可能已经对性别在不同社会和文化背景下的影响进行了广泛的研究。一些研究可能关注性别在收入、教育、就业、政治参与等方面的差异。可以查阅相关的文献来了解已有的研究成果,以帮助解释我们在数据分析中观察到的结果。 根据现有资料总结,一般情况下,男性的收入往往高于女性。这可能是由于性别差异导致的职业选择和职业发展机会的不平等,以及性别薪酬差距等因素的影响。 其次,从教育水平角度来看,可以比较男性和女性的受教育程度差异。通过各类问卷数据中的教育水平变量进行统计分析,可以计算男性和女性在不同教育水平上的比例,并比较两者之间的差异。研究表明,虽然女性在受教育程度上有显著提高,但在高等教育和职业技能培训等方面仍存在一定的性别差异。这可能与家庭和社会对于女性教育的限制以及职业选择的性别刻板印象等因素有关。 从就业角度来看,通过比较男性和女性的就业率和职业分布差异,对男性女性的就业状态和职业变量进行统计分析,从而计算男性和女性的就业率,并比较两者之间的差异。研究表明,虽然女性的就业率有所提高,但在某些行业和职位上仍存在性别差异。这可能与性别刻板印象、家庭角色分工以及职场性别歧视等因素有关。
数据分析:
library(tidyverse) library(lmtest) library(car) library(tidyverse) # 加载数据 data <- read.csv(“CGSS2021.csv”)
##加载数据并检查”A2”变量的摘要统计信息 绘制一个柱状图来可视化1与2的数量差距
查看变量摘要统计信息
summary(data$A2)
绘制柱状图
barplot(table(data$A2), main = “Gender Distribution”, xlab = “Gender”, ylab = “Count”, col = “skyblue”) 以柱状图可看出在性别的分布上并不平均,问卷来源中女性的数量多于男性,但差距在合理范围内,且数据基数大,故问卷数据仍具有参考价值。
在此选择比较不同性别在年龄(“A3_1”),教育水平(“A7a”)和年收入(“A8a”)方面的差异
# 性别与年龄的比较
boxplot(dataA2, xlab = “Gender”, ylab = “Age”, main = “Comparison of Age by Gender”)
性别与教育水平的比较
boxplot(dataA2, xlab = “Gender”, ylab = “Education Level”, main = “Comparison of Education Level by Gender”)
性别与年收入的比较
boxplot(dataA2, xlab = “Gender”, ylab = “Yearly Income”, main = “Comparison of Yearly Income by Gender”) 这些图可以帮助观察到不同性别之间的差异,并进一步探索性别在其他变量上的影响。
年龄方面,可看出两种性别样本对象的年龄区间相似,也大多集中于1950-1985年生,而在此基础上对于性别与教育水平的比较箱线图可得出女性的受教育比例相对男性较低,而受教育程度也较低,基于样本的年龄段相近,由此分析可猜测在上世纪中后期教育仍未平等普及,同时也有可能由于人们封建观念导致此年龄段的女性受教育程度偏低。而在年收入方面,男性女性样本基本持平,但女性中段收入者较少,高收入者数量也较少。
绘制饼图
library(tidyverse) df <- read_csv(“CGSS2021.csv”)
提取A2(性别)和A9(入党申请)列
data <- df %>% select(A2, A9)
将A2和A9的值转换为可读的标签
dataA2 == 1, “男性”, “女性”) dataA9 == 1, “已递交”, “未递交”)
过滤掉A9列中值数据
filtered_data <- data %>% filter(A9 != 98)
统计每个性别中递交和未递交入党申请的数量
counts <- filtered_data %>% group_by(A2, A9) %>% summarize(count = n(), .groups = “drop”)
创建饼图(性别递交入党申请情况)
plot1 <- ggplot(counts, family=“Arial Unicode MS”,aes(x = ““, y = count, fill = A9)) + geom_bar(stat =”identity”, width = 1) + coord_polar(“y”) + facet_wrap(~ A2, labeller = labeller(A2 = c(“男性” = “男性”, “女性” = “女性”))) + labs(title = “性别递交入党申请情况”, fill = “入党申请”) + scale_fill_manual(values = c(“未递交” = “lightblue”, “已递交” = “lightgreen”)) + theme_void()
显示饼图
print(plot1)
从饼图可以看出不同性别在入党意愿上也有一定差异(部分数据错误无法处理导致饼图有缺口)女性中有入党意愿的比例较高,而男性则相对较低。但总体来看,样本中有入党意愿的比例较高,在经历过上世纪中后页的一系列动荡后,大众对党的信任和向往在数据中得以体现。
在进行建模分析之前,可能需要对数据进行预处理,例如处理缺失值、标准化变量等。 然后,使用线性回归模型来探索性别与其他变量之间的关系
处理缺失值(具体处理方法根据数据特点而不同)
dataA3_1), mean(dataA3_1) dataA7a), mean(dataA7a) dataA8a), mean(dataA8a)
建模分析
线性回归模型
lm_model <- lm(A2 ~ A3_1 + A7a + A8a, data = data)
查看回归模型结果
summary(lm_model) 线性回归模型将帮助了解性别对年龄、教育水平和年收入的影响,并提供关于变量之间关系的统计显著性信息。
总结
综上,可发现性别对受教育程度、政治、收入水平等仍有一定影响,与根据现有研究的初步推断相符。其中,以对受教育程度影响最为明显。 以上仅为通过CGSS2021的部分问题和数据进行归类的数据分析,然而许多大环境的现象与原因仍可根据分析得出,有一定代表性。若对于更大范围样本和更详细的影响因素进行数据分析和归纳汇总,则此类分析结果有助于揭示性别不平等现象的存在,并为推动性别平等提供依据和方向。同时,还可以为政策制定者和社会各界提供参考,促进性别平等和社会公正的实现。