本文介绍: 根据每个数据集特性找到其分割符,如该数据集中的分隔符为,日常中见到的购物数据往往是所购买的数据而不是全部数据。后续在选择频繁项集与确定规则时不需要其他无关属性。数据集中都是字符串组成的,需要转换成数值编码。将展示不需要的字段属性拿出来。lift值越大则相关性越强。
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
retail_shopping_basket = {'ID': [1, 2, 3, 4, 5, 6],
'Basket': [['Beer', 'Diaper', 'Pretzels', 'Chips', 'Aspirin'],
['Diaper', 'Beer', 'Chips', 'Lotion', 'Juice', 'BabyFood', 'Milk'],
['Soda', 'Chips', 'Milk'],
['Soup', 'Beer', 'Diaper', 'Milk', 'IceCream'],
['Soda', 'Coffee', 'Milk', 'Bread'],
['Beer', 'Chips']]
}
retail = pd.DataFrame(retail_shopping_basket)
retail = retail[['ID', 'Basket']]
pd.options.display.max_colwidth = 100
retail
日常中见到的购物数据往往是所购买的数据而不是全部数据
数据集中都是字符串组成的,需要转换成数值编码
将展示不需要的字段属性拿出来
retail_id=retail.drop(columns=['Basket'])
retail_id
根据每个数据集特性找到其分割符,如该数据集中的分隔符为,
retail_Basket=retail.Basket.str.join(',')
retail_Basket
retail_Basket=retail_Basket.str.get_dummies(",")
###get_dummies()需要告知其分隔符 该函数主要用于进行数据处理
##列属性为所有出现的属性 出现了则该记录该属性为1
retail_Basket
retail=retail_id.join(retail_Basket)##将无关项重新组合
retail
后续在选择频繁项集与确定规则时不需要其他无关属性
frequent_itemsets_2=apriori(retail.drop(columns=['ID']),use_colnames=True)
##min_support默认为0.5
frequent_itemsets_2
association_rules(frequent_itemsets_2,metric='lift')
lift值越大则相关性越强
原文地址:https://blog.csdn.net/weixin_62100318/article/details/135950611
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_66383.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。