データサイエンス100本ノック 71~80

データサイエンス100本ノック 71~80#

import polars as pl
from helper.polars import load_100knocks_data
pl.Config.set_fmt_str_lengths(100)
df_customer, df_category, df_product, df_receipt, df_store, df_geocode = load_100knocks_data()

P-071#

レシート明細データ(df_receipt)の売上日(sales_ymd)に対し、顧客データ(df_customer)の会員申込日(application_date)からの経過月数を計算し、顧客ID(customer_id)、売上日、会員申込日とともに10件表示せよ(sales_ymdは数値、application_dateは文字列でデータを保持している点に注意)。1ヶ月未満は切り捨てること。

(
df_receipt
.select('customer_id', 'sales_ymd')
.unique(keep='first')
.join(df_customer, on='customer_id')
.select(
    pl.col.customer_id,
    pl.col.sales_ymd.cast(str).str.strptime(pl.Date, '%Y%m%d'),
    pl.col.application_date.cast(str).str.strptime(pl.Date, '%Y%m%d')
)
.with_columns(
    elapsed_months=
        (pl.col.sales_ymd.dt.year() - pl.col.application_date.dt.year()) * 12 +
        (pl.col.sales_ymd.dt.month() - pl.col.application_date.dt.month())
)
.head()
)
shape: (5, 4)
customer_idsales_ymdapplication_dateelapsed_months
strdatedatei32
"CS025115000002"2019-09-132016-01-1644
"CS025304000004"2017-04-162016-01-0415
"CS029415000098"2019-09-092015-07-1350
"CS027414000125"2019-07-202015-10-1545
"CS017315000003"2019-09-172015-07-0250

P-072#

レシート明細データ(df_receipt)の売上日(df_customer)に対し、顧客データ(df_customer)の会員申込日(application_date)からの経過年数を計算し、顧客ID(customer_id)、売上日、会員申込日とともに10件表示せよ(sales_ymdは数値、application_dateは文字列でデータを保持している点に注意)。1年未満は切り捨てること。

(
df_receipt
.select('customer_id', 'sales_ymd')
.unique(keep='first')
.join(df_customer, on='customer_id')
.select(
    pl.col.customer_id,
    pl.col.sales_ymd.cast(str).str.strptime(pl.Date, '%Y%m%d'),
    pl.col.application_date.cast(str).str.strptime(pl.Date, '%Y%m%d')
)
.with_columns(
    elapsed_years=pl.col.sales_ymd.dt.year() - pl.col.application_date.dt.year()
)
.head()
)
shape: (5, 4)
customer_idsales_ymdapplication_dateelapsed_years
strdatedatei32
"CS038315000124"2017-09-172015-04-252
"CS022515000128"2018-02-082016-01-162
"CS045615000002"2019-08-082017-05-102
"CS016414000063"2019-06-172014-11-205
"CS008414000023"2019-06-122015-05-214

P-073#

レシート明細データ(df_receipt)の売上日(sales_ymd)に対し、顧客データ(df_customer)の会員申込日(application_date)からのエポック秒による経過時間を計算し、顧客ID(customer_id)、売上日、会員申込日とともに10件表示せよ(なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意)。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

(
df_receipt
.select('customer_id', 'sales_ymd')
.unique(keep='first')
.join(df_customer, on='customer_id')
.select(
    pl.col.customer_id,
    pl.col.sales_ymd.cast(str).str.strptime(pl.Date, '%Y%m%d'),
    pl.col.application_date.cast(str).str.strptime(pl.Date, '%Y%m%d')
)
.with_columns(
    elapsed_years=(pl.col.sales_ymd - pl.col.application_date).dt.total_seconds()
)
.head()
)
shape: (5, 4)
customer_idsales_ymdapplication_dateelapsed_years
strdatedatei64
"CS020414000028"2017-03-022015-04-0460307200
"CS039215000046"2017-03-232015-08-2050198400
"CS035414000064"2017-08-102015-03-2175427200
"CS019414000012"2018-02-012015-03-2290460800
"CS035414000071"2017-01-292014-10-1971971200

P-074#

レシート明細データ(df_receipt)の売上日(sales_ymd)に対し、当該週の月曜日からの経過日数を計算し、売上日、直前の月曜日付とともに10件表示せよ(sales_ymdは数値でデータを保持している点に注意)。

(
df_receipt
.select('customer_id', 'sales_ymd')
.join(df_customer, on='customer_id')
.select(
    pl.col.sales_ymd.cast(str).str.strptime(pl.Date, '%Y%m%d'),
)
.with_columns(
    pl.col.sales_ymd.dt.truncate('1w').alias('monday')
)
.with_columns(
    (pl.col.sales_ymd - pl.col.monday).alias('elapsed_days').dt.total_days()
)
.head()
)
shape: (5, 3)
sales_ymdmondayelapsed_days
datedatei64
2018-11-032018-10-295
2018-11-182018-11-126
2017-07-122017-07-102
2018-08-212018-08-201
2019-06-052019-06-032

P-075#

顧客データ(df_customer)からランダムに1%のデータを抽出し、先頭から10件表示せよ。

df_customer.sample(fraction=0.01).head(5)
shape: (5, 11)
customer_idcustomer_namegender_cdgenderbirth_dayagepostal_cdaddressapplication_store_cdapplication_datestatus_cd
strstrstrstrstri64strstrstri64str
"CS017713000064""西谷 りえ""1""女性""1947-12-15"71"165-0027""東京都中野区野方**********""S13017"20150306"0-00000000-0"
"CS026415000057""宮崎 あさみ""9""不明""1974-12-29"44"253-0013""神奈川県茅ヶ崎市赤松町**********""S14026"20150401"E-20100916-D"
"CS027211000005""吉井 華子""1""女性""1995-11-20"23"245-0067""神奈川県横浜市戸塚区深谷町**********""S14027"20141101"6-20100831-9"
"CS030514000050""真田 真帆""1""女性""1965-06-19"53"272-0031""千葉県市川市平田**********""S12030"20150703"B-20100729-A"
"CS011705000002""島津 哲平""0""男性""1940-03-05"79"223-0065""神奈川県横浜市港北区高田東**********""S14011"20150812"0-00000000-0"

P-076#

顧客データ(df_customer)から性別コード(gender_cd)の割合に基づきランダムに10%のデータを層化抽出し、性別コードごとに件数を集計せよ。

(
df_customer
.filter(
    (pl.int_range(pl.len()) < pl.len() * 0.1).shuffle().over('gender_cd') == 1
)
.group_by('gender_cd')
.agg(pl.len())
)
shape: (3, 2)
gender_cdlen
stru32
"9"108
"1"1792
"0"299

P-077#

レシート明細データ(df_receipt)の売上金額を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。なお、外れ値は売上金額合計を対数化したうえで平均と標準偏差を計算し、その平均から3σを超えて離れたものとする(自然対数と常用対数のどちらでも可)。結果は10件表示せよ。

(
df_receipt
.group_by('customer_id')
.agg(
    sum_amount=pl.col.amount.sum(),
    log_sum_amount=pl.col.amount.sum().log(),
)
.filter(
    (pl.col.log_sum_amount - pl.col.log_sum_amount.mean()) / pl.col.log_sum_amount.std() > 3
)
)
shape: (1, 3)
customer_idsum_amountlog_sum_amount
stri64f64
"ZZ000000000000"1239500316.332804

P-078#

レシート明細データ(df_receipt)の売上金額(amount)を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが”Z”から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第1四分位と第3四分位の差であるIQRを用いて、「第1四分位数-1.5×IQR」を下回るもの、または「第3四分位数+1.5×IQR」を超えるものとする。結果は10件表示せよ。

col = pl.col.sum_amount
q25 = col.quantile(0.25)
q75 = col.quantile(0.75)
iqr = q75 - q25
expr = (col > q75 + iqr * 1.5) | (col < q25 - iqr * 1.5)
(
df_receipt
.filter(
    pl.col.customer_id.str.starts_with('Z').not_()
)
.group_by('customer_id')
.agg(sum_amount=pl.col.amount.sum())
.filter(expr)
.head()
)
shape: (5, 2)
customer_idsum_amount
stri64
"CS026515000201"11144
"CS007615000046"8979
"CS021515000101"10401
"CS022515000119"8354
"CS025414000027"8603

P-079#

商品データ(df_product)の各項目に対し、欠損数を確認せよ。

df_product.select(
    pl.all().null_count()
)
shape: (1, 6)
product_cdcategory_major_cdcategory_medium_cdcategory_small_cdunit_priceunit_cost
u32u32u32u32u32u32
000077

P-080#

商品データ(df_product)のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。

len(df_product), len(df_product.drop_nulls())
(10030, 10023)