1+x_大数据应用开发（python）职业技能（中级）

本文介绍: 大数据应用开发（python）职业技能等级证书（中级），1+x 证书考题。

题库就是这些题，博主考试的时候全是下面的原题，总分100等于理论40+实操60，二者相加超过60分即可，建议大家把重点放在实操题上。

只要大家把这三套题练会，证书手到擒来，博主随便背背就90了

在Linux 系统下安装 ntp 服务的命令正确的是( A )。
A.yum install ntp
B.yum rem ov e ntp
C.yum update ntp
D.yum list
在实际生广环境中获取的数据可能存在缺失值，为了更好地进行数据分析，通常需要对缺失数据进行识别和处理，下列关于Da t aFram e.dropna()方法说法正确的是( C )。
A.Da t aFram e.dropna(axis=1,i nplace=Tr ue):删除带有空值的行
B.Da taFram e.dropna(axis-0,i nplace s=Tnue):删除带有空值的列
C.DataFram e.dropna(axis=0,‘how=any’,in place=Tr ue):删除带有空值的行
D.DataFrame.dropna(axi s=1,‘how=all’,in place=True):删除全部为空值的行
下列关于Selen ium库的方法和作用不对应的是( C )。
A.element _to _be_click able()方法：元素可点击
B.element _to _be_selecte()方法：元素可选择，传入元素对象
C.element _located _to_be_selected()方法：元素可选择，传入定位列表
D.in vi sibi lity_of_element_located()方法：元素不可见
正确搭建Had oop 集群的步骤是( A )。
①克隆虚拟机
②配置SSH免密码登录
③格式化
④修改配置文件
⑤配置时间同步服务
A.④①②⑤③
B.③②①⑤④
C.⑤①③②④
D.②⑤④①③
若需要构建KNN模型，则在sklearn.neighbors 模块中可使用的类是( B )，
A.Deci sionTreeClas sifie r
B.KNeig h borsClas sifier
C.MLPClas sifier
D.KNN
在pandas库中，下列关于DataFrame.groupby()方法说法错误的是(C)。
A.DataFrame.groupby()方法用于数据框分组聚合过程中的分组操作
B.使用DataFrame.group b y()方法分组后的结果并不能直接查看，而是被存在内存中
C.group_keys参数指是否在运行的情况下对返回数据进行降维
D.as_index参数指聚合后的聚合标签是否以DataFrames 索引形式输出
下列关于sklearn库的预处理类说法正确的是( B )
A.MinMaxScaler:对特征进行标准差标准化
B.StandardScaler:对特征进行标准差标准化
C.FunctionTransformer:对定量特征进行二值化处理
D.OneHotEncoder:对特征进行自定义函数变换
在HTTP请求过程中，客户端与服务器间的请求与响应的具体步骤为( C )。
①发送HTTP请求
②释放连接TCP连接
③连接Web 服务器
④服务器接受请求并返回HTTP响应
⑤客户端解析HTML内容
A.③②①④⑤
B.①③④②⑤
C.③①④②⑤
D.①②③④⑤
在HTTP请求中，客户端向服务器发送一个请求报文，报文中的内容不包括( D )，
A请求的方法
B.URL
C.请求头部
D.响应头部
在Matp lotlib库中，设置图形的x轴名称的函数是( C )。
A.matplotlib.py p lot.y li m()函数
B.matp lotlib.py p lot.x li m()函数
C.matp lotlib.py p lot.x label()函数
D.matplotlib.py plot.y label()函数
下列代码的输出结果是( D )
result=list(map(lambda x:x*x,[1,2,3,4,5,6,7,8,9]))
print(result)
A.2,6,12,20,30,42,56,72]
B.[362880]
C.[1,2,3,4.5,6,7,8,9]
D.[1,4,9,16,25,36,49,64,81]

#(1）启动Jupyter Notebook创建一个Notebook。（2分)
# #(2）创建一个数值从o至1，间隔为e.01的数组arr1。（2分)
import numpy as np
arr1 = np.arange(0,1.01,0.01)
#(3）创建一个包含101个服从正态分布的随机数的数组arr2。(注意:数组arr2为一维数组)（2分)
arr2 = np.random.randn(101)
#(4）对数组arr1和数组arr2进行四则运算。(四则运算包括加、减、乘、除运算)(2分)
print('两数组之和为:n ', arr1 + arr2)
print( '两数组之差为:n ' , arr1 - arr2)
print( '两数组之积为: n ', arr1 *arr2)
print( '两o数组之商为:n ', arr1 / arr2)
#(5）对数组arr2进行简单的统计分析。(统计分析包括对数组进行升序排序、求和、求均值、求标准差和求最小值操作)。
print('排序后数组为: ', np.sort( arr2))
print('数组的和为: ', np.sum( arr2))
print('数组的均值为: ', np.mean( arr2))
print( '数组的标准差为: ', np.std(arr2))
print('数组的最小值为: ', np.min( arr2))
#(6）将数组arr1和数组arr2存储为当前工作路径下的一个二进制格式的文件arr.npz。(2分)
np.savez( ' arr.npz' , arr1, arr2)

# (1）读取数据文件iris.csv，储存为数据框iris，并将数据框的列名称从左至右依次改修为"“sepal_length""sepal_width""petal_length""petal_width""class”。(3分)
import pandas as pd
iris = pd .read_csv( 'iris.csv ' , header=None)
iris.columns = [ 'sepal_length', 'sepal_width', 'petal_length' , 'petal_width ', 'class']
#(2）将数据框iris中“petal_length”列的第o行至第9行设置为缺失值。(注意:在Python中，索引为e开始。) (3分)
iris.loc[0: 9, 'petal_length' ] = None
#(3）将数据框iris中"petal_length”列的缺失值全部替换为1.0。(3分)
iris[ 'petal_length ' ].fillna(1.0,inplace=True)
#(4）册删除数据框iris中"class”列。（2分)
del iris[ 'class']
#(5）将数据框iris的前3行设置为缺失值。（2分)
iris.iloc[0: 3,: ] = None
#(6）册除数据框iris中存在缺失值的行。（2分)
iris.dropna(how= 'any ' , inplace=True)
#(7）重新设置数据框iris的行索引。（3分)
iris.reset_index(drop=True,inplace=True)
#（8）将数据框iris保存到当前工作路径下并命名为iris_new.csv。（2分)
iris.to_csv( 'iris_new.csv ')

#(1）读取数据文件wine.csv，并储存为数据框wine。（1分)
import pandas as pd
wine = pd.read_csv( 'wine.csv ' , encoding='gb18030 ')
# (2）查询据框wine中是否存在缺失值。若存在缺失值，则需对其进行处理，反之，则无需处理。(2分)
print(wine.isnull().sum())# 由此可知无空值，无需处理
# (3）在wine数据集中，“Class”列为葡萄酒的类别，分别为1、2、3。绘制各类别的数量占比饼图。(4分)
wine_class = wine[ 'Class '].value_counts()#各类别数量
import matplotlib.pyplot as plt
plt.rcParams[ 'font.sans-serif' ] = 'SimHei' # 正常显示中文
plt.rcParams[ 'axes.unicode_minus '] = False# 正常显示符号
plt.pie(wine_class,labels=wine_class.index,autopct='%.2f%%')#小数点个数
plt.title( '各红酒类别占比图')
plt.show()
#(4）将数据框wine的数据和标签进行拆分，分别储存至数据框wine_data和数据框wine_label。(3分)
wine_data = wine.iloc[ : , 1: 14]#数据
wine_label = wine.iloc[ : , 0]#标签
#(5）将数据划分为训练集和测试集，训练集和测试集样本数比例为8:2，并将训练集数据、测试集数据、训练集标签和测试集标签分别储存至数据框wine_train、数据框wine_test、数据框wine_train_label和数据框wine_test_label。(3分)
from sklearn.model_selection import train_test_split
wine_train,wine_test,wine_train_label,wine_test_label = train_test_split
    (wine_data,wine_label,test_size=6.2,random_state=42)
#(6）构建聚类数目为3的K-Means模型，并命名为kmeans。(4分)
from sklearn.cluster import KMeans# 导入分类器库
kmeans = KMeans(n_clusters = 3,random_state=123).fit(wine_train)#构建并训练模型#(7）对比真实标签和聚类标签，求取FMI （FMI为聚类模型的评价指标)，并输出其结果。(4分)
from sklearn.metrics import fowlkes_mallows_score
score = fowlkes_mallows_score(wine_train_label.tolist(),kmeans.labels_)
print( 'wine数据集的类中心为3时，其FMI的评价分值为:%f '%score)
#(8）当聚类数目为2~10类时，确定最优聚类数目。(4分)
for i in range(2,11):
    kmeans = KMeans(n_clusters=i,random_state = 123).fit(wine_train)
    score = fowlkes_mallows_score(wine_train_label,kmeans.labels_)
    print('wine数据聚%d类FMI评价分值为:%f' % (i, score))
# 由此可知，最优聚类数目为2

# （1）启动Jupyter Notebook创建一个Notebook。
# （2）创健一个8×8的全0数组，并储存至数组arr。
import numpy as np
arr =np.zeros((8,8))
# (3).将数组arr的奇数行奇数列和偶数行偶数列的元素设置为1。
for i in range(8):
    for j in range(8):
        if(i+j)%2 ==0:
            arr[i][j] =1
# (4).将数组arr转换为矩阵matr1。
matr1 =np.matrix(arr)
# (5).将矩阵matr1转置为矩阵matr2,并判断矩阵mate1与矩阵matr2是否完全相同。
matr2=matr1.T
print((matr1 ==matr2).all())
# （6）将柜阵matr2存储为当前工作路径下的一个二进制格式的文件matr2.npy。
np.save('matr2.npy',matr2)

# （1）读取数据文件job_info.csv,并储存为数据框job_info.
import pandas as pd
import re
job_info =pd.read_csv('job_info.csv',encoding='GBK',header=None)
job_info.head()
# （2）将数据框job_info的列名称从左至右依次修改为”公司”“岗位”"工作地点”“工资”“发布日期”。
job_info.columns=['公司','岗位','工作地点','工资','发布日期']
job_info.head()
# （3）统计数据中需求最多的岗位招聘，并输出其结果。
print(job_info['岗位'].value_counts().index[0])
# (4).获取数据中9月3日发布的招聘信息，并输出其结果。
print(job_info[job_info['发布日期']=='09-03'])
# (5).获取工作地点在深圳的数据分析师招聘信息，并输出其结果。
job_info.loc[(job_info['工作地点'].apply(lambda x:'深圳' in x ))&amp;(job_info['岗位']=='数据分析师'),:]
# （6）获取在“工资”列中，以“千/月”或“千/年”或“万/月”或“万/年”结尾的数据所在的行的数据，并储存至数据框ob_info_new。
job_info['工资'].str[-1].value_counts()
job_info['工资'].str[-3].value_counts()
index1=job_info['工资'].str[-1].apply(lambda x:x in ['月','年'])
index2=job_info['工资'].str[-3].apply(lambda x:x in ['千','万'])
job_info_new =job_info[index1 & index2]
job_info_new.shape
# （7）根据“工资”列，在数据框job_info_new中，新增最低工资和最高工资两列，列名分别设置为“最低工资（元/月）”和“最高工资（元/月）”。(
# 注意：这两列数据的单位是“元/月”，例如：若2-2.5万/月，则最低工资为20000，最高工资为25000.)
def get_max_min_value(x):
        try:
                if x[-3] == '万':
                        a = [float(i)* 10000 for i in re.findall('c+.?c*',x)]
                elif x[-3]== '千':
                        a = [float(i)* 1000 for i in re.findall('c+.?c*',x)]
                if x[-1] == '年':
                        a = [i/12 for i in a ]
        except:
                pass
        return a
    salary = job_info_new['工资'].apply(get_max_min_value)
job_info_new['最低工资'] = salary.str[0]
job_info_new['最高工资'] = salary.str[1]

# （1）使用sklearn库加载鸢尾花数据和数据标签，将鸢尾花数据储存至数据框data,数据标签储存至数据框label。
from sklearn.datasets import load_iris
iris =load_iris()
data =iris['data']
label=iris['target']
# （2）统计数据中鸢尾花的类别数，并输出其结果。
print(len(set(label)))
# （3）以花萼长度为x轴，花萼宽度为y轴，绘制并展示散点图。
import matplotlib.pyplot as plt
plt.scatter(data[:,0],data[:,1])
plt.show()
# (4).将加载好的鸢尾花数据集划分成训练集和测试集两部分，训练集和测试集样本数比例为8：2，井将训练集数据、测试集数据
# .训练集标签和测试集标签分别储存至数据框x_train,数据框x_test,数据框y_train和数据框y_tes.
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test =train_test_split(data,label,test_size=0.2)
# (5)对数据框x_train和数据框x_test进行离差标准化，将标准化后的训练集和测试集数据分别储存至数据框scaler_x_train和数据
# 框scler_x_test(注意：测试集数据需使用和训练集数据相同的规职则进行标准化。)
from sklearn.preprocessing import MinMaxScaler
scaler =MinMaxScaler().fit(x_train)
scaler_x_train =scaler.transform(x_train)
scaler_x_test = scaler.transform(x_test)
# (6).构建决策树分类模型，命名为model,并进行模型训练.
from sklearn.tree import DecisionTreeClassifier
model=DecisionTreeClassifier()
model.fit(scaler_x_train,y_train)
# （7）对构建的模型进行性能评估，并输出其结果。（性能评估包括计算精确率、召回率和F1值等分类评估指标、)
from sklearn.metrics import classification_report
pre=model.predict(scaler_x_test)
res=classification_report(y_test,pre)
print(res)

# （1）启动Jupyter Notebook创建一个Notebook。
# (2).随机生成100个二维坐标点，并储存至数组arr1。
import numpy as np
x =np.linspace(0,10,100)
y =np.linspace(10,20,100)
arr1 =np.array((x,y)).T
# (3)计算各样本点之间的欧氏距离，并储存至数组arr2。
arr2 =[]
for i in range(len(arr1)):
        for j in range(len(arr1)):
                a = np.sqrt((arr1[i,0] - arr1[j,0]) ** 2 +(arr1[i,1])** 2)
                arr2.append(a)
arr2 =np.array(arr2)
# （4）将数组arr2的形状转换为（100,100)。
arr2=arr2.reshape(100,100)
# （5）将数组arr2存储为当前工作路径下的一个二进制格式的文件arr2.npy。
np.save('arr2.npy',arr2)

# （1）读取数据文件data.csv,并储存为数据框data。
import pandas as pd
data = pd.read_csv('data.csv',parse_dates=['DATA_DATE'],encoding='gbk')
# 将数据框data转换为行索引为用户编号、列索引为时间、值为用户用电量的数据透视表data_new。
data_new = pd.pivot_table(data=data,values='KWH',index='CONS_NO',columns='DATA_DATE')
# （3）采用四分位法对透视表data_new中的异常数据进行识别并处理。
def clear_(x=None):
        QL=x.quantile(0.25)
        QU=x.quantile(0.75)
        IQR = QU -QL
        x[((x > QU +1.5 * IQR)| (x < QU -1.5 * IQR))] = None
        return x
data_new.apply(clear_,axis=0)
# （4）构造持证1：统计每个用户用电数据的基本统计量（基本统计量包括最大值、最小值、均值、中位数），并将结果储存至数据框feature1。
feature1 = data_new.agg(['max','min','mean','median'],axis=1)
# （5）构造特证2：将每个用户用电数据按日差分后，求取基本统计量（基本统计量包括最大值、最小值、均值.中位数），将结果储存至数据框feature2。
feature2 =data_new.diff(axis=1).agg(['max','min','mean','median'],axis=1)
# 构造特征3：求每个用户的5%分位数，并将结果储存至数据框feature3.
feature3 =data_new.quantile(0.05 ,axis=1)
# (7)构造特征4：统计每个用户的日用电量在其最大值0.9倍以上的次数，并将结果储存至数据框feature3.
feature4 =data_new.apply(lambda x: sum(x> x.max() *0.9),axis=1)
# 合井特征1、特征2、特征3和特征4，并储存孕数据框feature4。
feature=pd.concat([feature1,feature2,feature3,feature4],axis=0)
# 将数据框feature保存到当前工作路径下并命名为feature.csv。
feature.to_csv('feature.csv')

# (1)读取数据文件titanic.csv,并储存为数据框titanic.
import numpy as np
import pandas as pd
titanic =pd.read_csv('titanic.csv')
# 计算乘客生还人数，并输出其结果.
titanic['Survived'].sum()
# 绘制男女乘客比例饼图，并添加标题”男女乘客比例饼图”。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']='SimHei'
plt.rcParams['axes.unicode_minus']=False
sex_=titanic['Sex'].value_counts()
plt.pie(sex_.values,labels=['Male','Female'],autopct='%1.1f%%',startangle=90)
plt.title('男女乘客比例饼图')
plt.show()
# 绘制船票价格直方图，并添加x轴标题”船票价格”和y轴标题”频次”。（注意：需先对”船票价格”进行升序排序）
df =titanic['fare'].sort_values(ascending=False)
plt.figure()
plt.hist(df,bins=(np.arange(0,550,10)))
plt.xlabel('船票价格')
plt.ylabel('频次')
plt.title('船票价格直方图')
plt.show()
# （5）在数据框titanic中，新增一列为家庭人数，并将列名设置为familysize"。
titanic['familysize']=titanic.loc[:,'SibSp']+titanic.loc[:,'Parch']+1
# （6)修改数据框titanic的”Sex”列，使用数值”1”和”0”分别代替”Sex”列中的”male”和”female”。
titanic['Sex']=titanic['Sex'].map({'female':0,'male':1}).astype(int)
# （7）根据“Pclass”、“Sex”和“familysize”这三个特征预测乘客是否生还。将数据集划分成训练集和测则试集两部分，训练集和测试集样本数比例为8:2
from sklearn.model_selection import train_test_split
x= titanic.loc[:,['Pclass','Sex','familysize']]
y= titanic.loc[:,['Survived']]
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=42)
# 构建KNN模型，命名为clf,并进行模型训练。
from sklearn  import neighbors
clf = neighbors.KNeighborsClassifier(n_neighbors=20)
clf.fit(x_train,y_train)
# 使用测试集数据进行模型预测，并将结果储存至数组pre。
pre =clf.predict(x_test)
# 对构建的模型进行性能评估，并输出其结果。(性能评估包括计算精确率、召回率和F1值等分类评估指标。）
from sklearn.metrics import classification_report
res = classification_report(y_test,pre)