基于Python多元线性回归模型

本文介绍: 本文主要是基于多元回归线性模型，然后建立模型和分析，解决多元线性回归模型存在的问题和优化多元线性回归模型

本文主要是基于多元回归线性模型，然后建立模型和分析，解决多元线性回归模型存在的问题和优化多元线性回归模型，原理就不多讲了，可查看《应用回归分析》这本书，本文直接从例子讲解和分析，代码则是基于Pyt h on。

首先是读取数据，观察数据是否有缺失和异常值，没有就可以直接进行建模，数据如下所示：

代码如下：

import pandas as pd
# Load data
#第一种方式，这种方式是你的文件夹有中文名的打开方式
f = open('文件路径', encoding='gbk')
df = pd.read_csv(f)
f.close()
print(df) #查看数据

#第二种方式是数据在全英的文件夹中的打开方式
df = pd.read_csv("文件路径")

print(df)

接着建立多元回归分析模型，打印出模型的结果如下：

import statsmodels.formula.api as smf
result = smf.ols('y~x1+x2+x3',data=df).fit() 

print(result.params)   # 自变量系数和常数项结果
print(result.summary())    # 模型拟合的结果：检验，R方等
print(result.pvalues)   # 每个参数的P值

#单值
predictvalues = result.predict(pd.DataFrame({'x1': [75],'x2': [42],'x3':[1.6]}))
print(predictvalues)

#区间
predictions = result.get_prediction(pd.DataFrame({'x1': [75],'x2': [42],'x3':[1.6]}))
print(predictions.summary_frame(alpha=0.05))

result = smf.ols('y~x1+x2+x3-1',data=df).fit() 

print(result.params)  #自变量系数和常数项结果
print(result.summary())  #模型拟合的结果：检验，R方等
print(result.pvalues)  #每个参数的P值

#单值
predictvalues = result.predict(pd.DataFrame({'x1': [75],'x2': [42],'x3':[1.6]}))
print(predictvalues)

#区间
predictions = result.get_prediction(pd.DataFrame({'x1': [75],'x2': [42],'x3':[1.6]}))
print(predictions.summary_frame(alpha=0.05))

import numpy as np
import statsmodels.formula.api as smf
import pandas as pd

# Load data
f = open('D:Word文档和Pdf应用回归作业zy3.11.csv',encoding='gbk')
df = pd.read_csv(f)
f.close()
print(df)


result = smf.ols('y~x1+x2+x3',data=df).fit() 

print(result.params)  #自变量系数和常数项结果
print(result.summary())  #模型拟合的结果：检验，R方等
print(result.pvalues)  #每个参数的P值

#=========预测新值（原模型）======================================================
#单值
predictvalues = result.predict(pd.DataFrame({'x1': [75],'x2': [42],'x3':[1.6]}))
print(predictvalues)

#区间
predictions = result.get_prediction(pd.DataFrame({'x1': [75],'x2': [42],'x3':[1.6]}))
print(predictions.summary_frame(alpha=0.05))


#去截距模型
result = smf.ols('y~x1+x2+x3-1',data=df).fit() 

print(result.params)  #自变量系数和常数项结果
print(result.summary())  #模型拟合的结果：检验，R方等
print(result.pvalues)  #每个参数的P值


#=========预测新值（去截距模型）======================================================
#单值
predictvalues = result.predict(pd.DataFrame({'x1': [75],'x2': [42],'x3':[1.6]}))
print(predictvalues)

#区间
predictions = result.get_prediction(pd.DataFrame({'x1': [75],'x2': [42],'x3':[1.6]}))
print(predictions.summary_frame(alpha=0.05))