从样本中抽样的Python技术

本文介绍: 在数据分析和机器学习中，我们经常需要从给定的样本中进行随机抽样。Py th on提供了多种方法来执行此操作，下面将介绍其中的几种方法。简单随机抽样是指从总体中随机地选取一些个体组成样本，每个个体被选中的概率相等。在Pyth on中，可以使用 random.s ample()函数实现简单随机抽样。例如，从数值列表[1, 2, 3, 4, 5]中随机抽取3个数：输出：2. 分层随机抽样在某些情况下，我们希望从不同层次的群体中进行抽样，这就需要用到分层随机抽样。在Pyth on中，可以使用pandas.Da t aFram

在数据分析和机器学习中，我们经常需要从给定的样本中进行随机抽样。Pyth on提供了多种方法来执行此操作，下面将介绍其中的几种方法。

简单随机抽样是指从总体中随机地选取一些个体组成样本，每个个体被选中的概率相等。在Pyt h on中，可以使用random.s ample()函数实现简单随机抽样。

例如，从数值列表[1, 2, 3, 4, 5]中随机抽取3个数：

import random

sample_list = [1, 2, 3, 4, 5]
sample_size = 3

sample = random.sample(sample_list, sample_size)
print(sample)

输出：

[5, 4, 1]

在某些情况下，我们希望从不同层次的群体中进行抽样，这就需要用到分层随机抽样。在Pyth on中，可以使用pandas.DataFrame.groupby()和apply()函数实现分层随机抽样。

import pandas as pd

data = {'Gender': ['Male', 'Female', 'Male', 'Female', 'Male', 'Female'],
        'Age': [25, 30, 35, 40, 45, 50],
        'Income': [50000, 60000, 70000, 80000, 90000, 100000]}

df = pd.DataFrame(data)

sample_size = 10

sample = df.groupby('Gender').apply(lambda x: x.sample(sample_size))
print(sample)

            Gender  Age  Income
Gender                         
Female 3   Female   40   80000
       1   Female   30   60000
       4   Female   45   90000
       5   Female   50  100000
       0   Female   25   50000
Male   5     Male   50  100000
       4     Male   45   90000
       2     Male   35   70000
       0     Male   25   50000
       1     Male   30   60000

import random

clusters = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

cluster = random.choice(clusters)
print(cluster)

[4, 5, 6]

population = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
k = 2

sample = population[::k]
print(sample)

[1, 3, 5, 7, 9]

import pandas as pd
import random

data = {'Region': ['East', 'East', 'East', 'West', 'West', 'West'],
        'Age': [25, 30, 35, 40, 45, 50],
        'Income': [50000, 60000, 70000, 80000, 90000, 100000]}

df = pd.DataFrame(data)

sample_size_per_group = 3
selected_groups = random.sample(df['Region'].unique().tolist(), 2)

sample = df[df['Region'].isin(selected_groups)].groupby('Region').apply(lambda x: x.sample(sample_size_per_group))
print(sample)

                 Region  Age  Income
Region                              
East   0           East   25   50000
       1           East   30   60000
       2           East   35   70000
West   3           West   40   80000
       4           West   45   90000
       5           West   50  100000

import random

population = [1, 2, 3, 4, 5]
loop_times = 3

sample = [random.choice(population) for _ in range(loop_times)]
print(sample)

[1, 2, 5]

import random

towns = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
sample_size = 3

sample = random.sample(towns, sample_size)
print(sample)

['A', 'H', 'E']

import pandas as pd
import numpy as np

np.random.seed(42)

data = {'Gender': ['Male', 'Male', 'Female', 'Female', 'Female', 'Male', 'Male'],
        'Age': [25, 30, 35, 40, 45, 50, 55],
        'Income': [50000, 60000, 70000, 80000, 90000, 100000, 110000]}

df = pd.DataFrame(data)

sample_size_per_stratum = 2
strata = df.groupby('Gender').apply(lambda x: x.sample(sample_size_per_stratum))
sample = strata.reset_index(drop=True)

print(sample)

   Gender  Age  Income
0  Female   40   80000
1  Female   35   70000
2    Male   55  110000
3    Male   30   60000

towns = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
k = 2

sample = towns[::k]
print(sample)

['A', 'C', 'E', 'G']

import random

names = ['Alice', 'Bob', 'Charlie', 'David', 'Emma', 'Frank']

sample_size = 5
sample = random.sample(names, sample_size)

print(sample)

['Bob', 'Charlie', 'Alice', 'Frank', 'Emma']

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

python 抽样随机抽样

从样本中抽样的Pyth on 技术

1. 简单随机抽样

2. 分层随机抽样

3. 簇抽样

4. 系统抽样

5. 分层整群抽样

6. 自助法

7. 集群抽样

8. 分层抽样

9. 系统整群抽样

10. 非概率抽样

发表回复取消回复