ccao-data · wagnerlmichael · Feb 2, 2024 · Feb 1, 2024 · Feb 1, 2024 · Feb 1, 2024
@@ -45,6 +45,7 @@ training_data <- dbGetQuery(
       sale.buyer_name AS meta_sale_buyer_name,
       sale.sv_is_outlier,
       sale.sv_outlier_type,
+      sale.sv_run_id,
       res.*
   FROM model.vw_card_res_input res
   INNER JOIN default.vw_pin_sale sale

diff --git a/pipeline/02-assess.R b/pipeline/02-assess.R
@@ -362,15 +362,31 @@ sales_data_ratio_study <- sales_data %>%
 sales_data_two_most_recent <- sales_data %>%
   distinct(
     meta_pin, meta_year,
-    meta_sale_price, meta_sale_date, meta_sale_document_num
+    meta_sale_price, meta_sale_date, meta_sale_document_num,
+    sv_outlier_type, sv_run_id
+  ) %>%
+  rename(
+    meta_sale_outlier_type = sv_outlier_type,
+    meta_sale_sv_run_id = sv_run_id
+  ) %>%
+  mutate(
+    meta_sale_outlier_type = ifelse(
+      meta_sale_outlier_type == "Not outlier", NA, meta_sale_outlier_type
+    )
   ) %>%
   group_by(meta_pin) %>%
   slice_max(meta_sale_date, n = 2) %>%
   mutate(mr = paste0("sale_recent_", row_number())) %>%
   tidyr::pivot_wider(
     id_cols = meta_pin,
     names_from = mr,
-    values_from = c(meta_sale_date, meta_sale_price, meta_sale_document_num),
+    values_from = c(
+      meta_sale_date,
+      meta_sale_price,
+      meta_sale_document_num,
+      meta_sale_outlier_type,
+      meta_sale_sv_run_id
+    ),
     names_glue = "{mr}_{gsub('meta_sale_', '', .value)}"
   ) %>%
   select(meta_pin, contains("1"), contains("2")) %>%