import pandas as pdimport numpy as npimport timeimport datetime

一、时间

pandas.Timestamp(ts_input=<object object>, freq=None, tz=None, unit=None, year=None, month=None, day=None, hour=None, minute=None, second=None, microsecond=None, nanosecond=None, tzinfo=None, *, fold=None)
pd.Timestamp('2022-01-01')
#Timestamp('2022-01-01 00:00:00')
pd.Timestamp('2021-12-15 12')
#Timestamp('2021-12-15 12:00:00')
  • 示例 3:如果我们输入的格式不满足上面的默认格式会进行自动调整。
pd.Timestamp('01-01-2022 12')
#Timestamp('2022-01-01 12:00:00')
pd.Timestamp('2022-01')
#Timestamp('2022-01-01 00:00:00')
  • 示例 5:
pd.Timestamp('2022') 
#Timestamp('2022-01-01 00:00:00')
pd.Timestamp('2022-01-50')
pd.Timestamp('2022-02-31')
pd.Timestamp('2022-02-29')

1. unit 参数是 s

  • 这将转换以秒为单位表示 Unix 历元的浮点值。
  • 1970 年 1 月 1 日这个时间正是 Unix 系统的起始时间。
  • 具体可见如下示例。
  • 示例 1:我们可以通过 time.time() 返回从 1970 年 1 月 1 日到现在一共有多少秒。
time.time()
#1650616591.3381748
  • 示例 2:我们可以将其转换为 Unix 历元的浮点值。
pd.Timestamp(time.time(), unit="s")
#Timestamp('2022-04-22 08:36:15.079070091')
pd.Timestamp(int(time.time()), unit="s")
#Timestamp('2022-04-22 08:36:56')
  • 示例 4:
my_time = time.time()
print(my_time)
pd.Timestamp(my_time)
#1650616682.428626
#Timestamp('1970-01-01 00:00:01.650616682')
  • 示例 5:也可以对他的数值进行设定。
pd.Timestamp(2)
#Timestamp('1970-01-01 00:00:00.000000002')

2. yearmonthdayhourminute、second、microsecond 单独设置时间

pd.Timestamp(2022, 1, 10, 12)
#Timestamp('2022-01-10 12:00:00')
pd.Timestamp(1, 2022, 10, 12) 
#ValueError: month must be in 1..12
  • 示例 3:我们可以设置年月日的具体数据,时间不设置的话就默认为 0。
pd.Timestamp(year=2022,day=10, month=1)
#Timestamp('2022-01-10 00:00:00')
  • 示例 4:
pd.Timestamp(year=2022, month=1,day=1)
#Timestamp('2022-01-01 00:00:00')
  • 示例 5:
pd.Timestamp(year=2022, month=1, day=10, hour=12)
#Timestamp('2022-01-10 12:00:00')
  • 示例 6:
pd.Timestamp(year=2022, month=1, day=10)
#Timestamp('2022-01-10 00:00:00')

二、通过时间间隔实现 datetime 加减

pd.Timedelta(value=<object object at 0x000001BE55DCFE80&gt;,unit=None,**kwargs
ts = pd.Timestamp('2022-01-01 12')
ts
#Timestamp('2022-01-01 12:00:00')
  • 示例 2:我们可以在 ts 的基础上使用 pd.Timedelta() 函数减少一天。
ts + pd.Timedelta(-1, "D")
#Timestamp('2021-12-31 12:00:00')
td = pd.Timedelta(days=5, minutes=50, seconds=20)
td
#Timedelta('5 days 00:50:20')
ts + td
Timestamp('2022-01-06 12:50:20')
  • 示例 5:可以使用 td.total_seconds() 将 td 转换为秒钟数。
td.total_seconds()
#435020.0
  • 示例 6:返回现在的时间。
datetime.datetime.now()
#datetime.datetime(2023, 2, 22, 15, 22, 19, 554438)
  • 示例 7:我们可以设置时区,例如,中国上海所在的时区,我们可以设置为 tz=“Asia/Shanghai”。
pd.Timestamp(int(time.time()) + 435020, unit="s", tz="Asia/Shanghai")
#Timestamp('2022-04-27 17:41:29+0800', tz='Asia/Shanghai')
pd.Timestamp(int(time.time()), unit="s", tz="Asia/Shanghai")
Timestamp('2022-04-22 16:51:25+0800', tz='Asia/Shanghai')
  • 示例 9:
time.time()+ td.total_seconds()
pd.Timestamp(int(time.time()+ td.total_seconds()),unit='s')
#Timestamp('2022-04-27 09:38:11')
import datetime
now = datetime.datetime.now()
print(now)
dt = now + datetime.timedelta(days=100)
print(dt,type(dt))
dt.strftime('%Y-%m-%d')
#2022-04-22 16:54:11.351536
#2022-07-31 16:54:11.351536 <class 'datetime.datetime'>
#'2022-07-31'

三、时间转化

to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, format=None, unit=None, infer_datetime_format=False, origin='unix')

1. 处理各种输入格式

  • 一个数据帧的多个列中组装日期时间。
  • 这些键可以是常见的缩写,如 [‘year’、‘month’、‘day’、‘minute’、‘second’、‘ms’、‘us’、‘ns’]),也可以是相同的复数形式。
  • 具体可见如下示例。
  • 示例 1:我们可以通过 pd.DataFrame() 存储时间数据
df = pd.DataFrame({'year': [2015, 2016],'month': [2, 3],'day': [4, 5]})
df
#year	month	day
#0	2015	2	4
#1	2016	3	5
  • 示例 2:
pd.to_datetime(df)
#0   2015-02-04
#1   2016-03-05
#dtype: datetime64[ns]

2. 将字符串转 datetime

  • 示例 1:
pd.to_datetime(['11-12-2021'])
#DatetimeIndex(['2021-11-12'], dtype='datetime64[ns]', freq=None)
  • 示例 2:
pd.to_datetime(["2005/11/23", "2010.12.31"])
#DatetimeIndex(['2005-11-23', '2010-12-31'], dtype='datetime64[ns]', freq=None)

3. 除了可以将文本数据转为时间戳外,还可以将 unix 时间转为时间戳。

  • 示例 1:
pd.to_datetime([1349720105, 1349806505, 1349892905], unit="s")
#DatetimeIndex(['2012-10-08 18:15:05', '2012-10-09 18:15:05',
#               '2012-10-10 18:15:05'],
#              dtype='datetime64[ns]', freq=None)
  • 示例 2:
pd.to_datetime([1349720105100, 1349720105200, 1349720105300], unit="ms")
#DatetimeIndex(['2012-10-08 18:15:05.100000', '2012-10-08 18:15:05.200000',
#               '2012-10-08 18:15:05.300000'],
#              dtype='datetime64[ns]', freq=None)

4. 自动识别异常

pd.to_datetime('210605')
#Timestamp('2005-06-21 00:00:00')
  • 我们可以将 yearfirst 设置为 True,便得到了我们想要的时间。
pd.to_datetime('210605',yearfirst=True)
#Timestamp('2021-06-05 00:00:00')

5. 配合 unit 参数使用unix 时间

  • 示例 1:origin 参考起始时间 d(天数),生成后面的时间。
pd.to_datetime([1, 2, 3], unit='d', origin=pd.Timestamp('2020-01-11'))
#DatetimeIndex(['2020-01-12', '2020-01-13', '2020-01-14'], dtype='datetime64[ns]', freq=None)
  • 示例 2:origin 参考起始时间 h(小时),生成后面的时间。
pd.to_datetime([1, 2, 3], unit='h', origin=pd.Timestamp('2020-01'))
#DatetimeIndex(['2020-01-01 01:00:00', '2020-01-01 02:00:00',
#               '2020-01-01 03:00:00'],
#              dtype='datetime64[ns]', freq=None)
  • 示例 3:origin 参考起始时间 m(分钟),生成后面的时间。
pd.to_datetime([1, 2, 3], unit='m', origin=pd.Timestamp('2020-01'))
#DatetimeIndex(['2020-01-01 00:01:00', '2020-01-01 00:02:00',
#               '2020-01-01 00:03:00'],
#              dtype='datetime64[ns]', freq=None)

示例 4:origin 参考起始时间 s(秒钟),生成后面的时间。

pd.to_datetime([1, 2, 3], unit='s', origin=pd.Timestamp('2020-01'))
#DatetimeIndex(['2020-01-01 00:00:01', '2020-01-01 00:00:02',
#               '2020-01-01 00:00:03'],
#              dtype='datetime64[ns]', freq=None)

6. 不可转换日期/时间

pd.to_datetime(['120211204','20210101'])
  • 示例 2:如果出现无效的转换,将使用输入的数据。
pd.to_datetime(['202102.01','2021.02.01'], errors="ignore")
#Index(['202102.01', '2021.02.01'], dtype='object')
  • 示例 3:无效的转换,使用 NaT。
pd.to_datetime(['120211204','2021.02.01'], errors="coerce")
#DatetimeIndex(['NaT', '2021-02-01'], dtype='datetime64[ns]', freq=None)
pd.to_datetime(pd.Series(["Jul 31, 2018", "2018.05.10", None]))
#0   2018-07-31
#1   2018-05-10
#2          NaT
#dtype: datetime64[ns]

四、时期频率转换

asfreq(freq, method=None, how=None, normalize=False, fill_value=None)
ts = pd.Series(np.random.rand(4),
              index = pd.date_range('20170101','20170104'))
print(ts)
#2017-01-01    0.212259
#2017-01-02    0.475196
#2017-01-03    0.186119
#2017-01-04    0.355026
#Freq: D, dtype: float64
  • 我们改变频率这里是将 D 改为 4H(每隔 4H 生成一个),由于我们最开始没有设置时间,因此他们默认是 0,除 0 以外的时间均变成 NaN。
ts.asfreq('4H')
#2017-01-01 00:00:00    0.212259
#2017-01-01 04:00:00         NaN
#2017-01-01 08:00:00         NaN
#2017-01-01 12:00:00         NaN
#2017-01-01 16:00:00         NaN
#2017-01-01 20:00:00         NaN
#2017-01-02 00:00:00    0.475196
#2017-01-02 04:00:00         NaN
#2017-01-02 08:00:00         NaN
#2017-01-02 12:00:00         NaN
#2017-01-02 16:00:00         NaN
#2017-01-02 20:00:00         NaN
#2017-01-03 00:00:00    0.186119
#2017-01-03 04:00:00         NaN
#2017-01-03 08:00:00         NaN
#2017-01-03 12:00:00         NaN
#2017-01-03 16:00:00         NaN
#2017-01-03 20:00:00         NaN
#2017-01-04 00:00:00    0.355026
Freq: 4H, dtype: float64
ts.asfreq('4H', method = 'ffill')
#2017-01-01 00:00:00    0.212259
#2017-01-01 04:00:00    0.212259
#2017-01-01 08:00:00    0.212259
#2017-01-01 12:00:00    0.212259
#2017-01-01 16:00:00    0.212259
#2017-01-01 20:00:00    0.212259
#2017-01-02 00:00:00    0.475196
#2017-01-02 04:00:00    0.475196
#2017-01-02 08:00:00    0.475196
#2017-01-02 12:00:00    0.475196
#2017-01-02 16:00:00    0.475196
#2017-01-02 20:00:00    0.475196
#2017-01-03 00:00:00    0.186119
#32017-01-03 04:00:00    0.186119
#2017-01-03 08:00:00    0.186119
#2017-01-03 12:00:00    0.186119
#2017-01-03 16:00:00    0.186119
#2017-01-03 20:00:00    0.186119
#2017-01-04 00:00:00    0.355026
#Freq: 4H, dtype: float64
ts.asfreq('4H', method = 'bfill')
#2017-01-01 00:00:00    0.212259
#2017-01-01 04:00:00    0.475196
#2017-01-01 08:00:00    0.475196
#2017-01-01 12:00:00    0.475196
#2017-01-01 16:00:00    0.475196
#2017-01-01 20:00:00    0.475196
#2017-01-02 00:00:00    0.475196
#2017-01-02 04:00:00    0.186119
#2017-01-02 08:00:00    0.186119
#2017-01-02 12:00:00    0.186119
#2017-01-02 16:00:00    0.186119
#2017-01-02 20:00:00    0.186119
#2017-01-03 00:00:00    0.186119
#2017-01-03 04:00:00    0.355026
#2017-01-03 08:00:00    0.355026
#2017-01-03 12:00:00    0.355026
#2017-01-03 16:00:00    0.355026
#2017-01-03 20:00:00    0.355026
#2017-01-04 00:00:00    0.355026
#Freq: 4H, dtype: float64

五、shift() 时间频率进行移位

  • 他可以按所需的时段数和可选的时间频率进行移位索引
  • 其语法模板如下:
shift(periods=1, freq=None, axis=0, fill_value=None) 
  • 如果未传递 freq,则在不重新调整数据的情况下移动索引。如果传递了 freq(在这种情况下,索引必须是 date 或 datetime,否则将引发 NotImplementedError),只要在索引中设置了 freq 或推断的 _freq 属性,就可以推断 freq。
  • 参数含义如下:
  • periods 表示要转换的时段数。可以是正面的,也可以是负面的。
  • freq 表示如果指定了 freq,则索引值会移位,但数据不会重新对齐。也就是说,如果要在移动扩展索引并保留原始数据
  • axis:{0 or ‘index’, 1 or ‘columns’, None} 表示转换方向
  • fill_value 表示填充值。
  • 示例 1:我们生成一个 4 行 4 列的随机数数组,行标签是 20210101 到 20210104,列标签是 A、B、C、D。
df = pd.DataFrame(np.random.rand(16).reshape((4,4)), 
                  index = pd.date_range('20210101','20210104'),
                  columns=list('ABCD'))
df
#                  A	       B	       C	       D
#2021-01-01	0.435600	0.899540	0.146171	0.543191
#2021-01-02	0.978700	0.824476	0.015656	0.862976
#2021-01-03	0.069611	0.503938	0.215017	0.677024
#2021-01-04	0.112235	0.352456	0.026572	0.103668
  • 我们将 periods 设置为 2,为正数,数值后移(滞后),模式为行。
df.shift(periods=2)
#                  A	       B	       C	       D
#2021-01-01	     NaN	     NaN	     NaN	      NaN
#2021-01-02	     NaN	     NaN	     NaN	      NaN
#2021-01-03	  0.4356	 0.899540	0.146171	  0.543191
#2021-01-04	  0.9787	 0.824476	0.015656	  0.862976
  • 我们将 periods 设置为 1,正数,数值后移(滞后) ,模式为列。
df.shift(periods=1, axis="columns")
#                  A	       B	       C	       D
#2021-01-01		  NaN	0.435600	0.899540	0.146171
#2021-01-02		  NaN	0.978700	0.824476	0.015656
#2021-01-03		  NaN	0.069611	0.503938	0.215017
#2021-01-04	   	  NaN	0.112235	0.352456	0.026572
  • 我们将 periods 设置为 3,正数,数值后移,NaN 填充为 0。
df.shift(periods=3, fill_value=0)
#                  A	       B	       C	       D
#2021-01-01	  0.0000	 0.00000	0.000000	0.000000
#2021-01-02	  0.0000	 0.00000	0.000000	0.000000
#2021-01-03	  0.0000	 0.00000	0.000000	0.000000
#2021-01-04	  0.4356	 0.89954	0.146171	0.543191
  • 当我们设置 freq 时,表示对时间索引移动
df.shift(periods=3, freq="D")
#                  A	       B	       C	       D
#2021-01-04	0.435600	0.899540	0.146171	0.543191
#2021-01-05	0.978700	0.824476	0.015656	0.862976
#2021-01-06	0.069611	0.503938	0.215017	0.677024
#2021-01-07	0.112235	0.352456	0.026572	0.103668
  • 我们可以计算变化百分比,这里计算:该时间戳与上一个时间戳相比,变化百分比。
per = df/df.shift(1) - 1
print(per)
#                  A	       B	       C	       D
#2021-01-01       NaN       NaN        NaN       NaN
#2021-01-02  1.246787 -0.083447  -0.892891  0.588714
#2021-01-03 -0.928874 -0.388779  12.733554 -0.215477
#2021-01-04  0.612317 -0.300595  -0.876419 -0.846877

原文地址:https://blog.csdn.net/weixin_45891612/article/details/129154973

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_18343.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注