-- added feature extaractor

manujosephv · manujosephv · commit 9db56a9a5758 · 2021-03-18T07:00:31.000+05:30
-- added unittests
diff --git a/examples/to_test_regression.py b/examples/to_test_regression.py
@@ -116,18 +116,24 @@ def fake_metric(y_hat, y):
     optimizer=torch.optim.Adagrad,
     optimizer_params={},
 )
-tabular_model.save_model("examples/sample")
-result = tabular_model.evaluate(test)
-print(result)
-# # print(result[0]['train_loss'])
-new_mdl = TabularModel.load_from_checkpoint("examples/sample")
-# TODO test none no test loader
-result = new_mdl.evaluate(test)
-print(result)
-tabular_model.fit(
-    train=train, test=test, metrics=[fake_metric], target_transform=tr, max_epochs=2
-)
-pred_df = tabular_model.predict(test, quantiles=[0.25], ret_logits=True)
-print(pred_df.head())
+
+from pytorch_tabular.feature_extractor import DeepFeatureExtractor
+
+dt = DeepFeatureExtractor(tabular_model)
+enc_df = dt.fit_transform(test)
+print(enc_df.head())
+# tabular_model.save_model("examples/sample")
+# result = tabular_model.evaluate(test)
+# print(result)
+# # # print(result[0]['train_loss'])
+# new_mdl = TabularModel.load_from_checkpoint("examples/sample")
+# # TODO test none no test loader
+# result = new_mdl.evaluate(test)
+# print(result)
+# tabular_model.fit(
+#     train=train, test=test, metrics=[fake_metric], target_transform=tr, max_epochs=2
+# )
+# pred_df = tabular_model.predict(test, quantiles=[0.25], ret_logits=True)
+# print(pred_df.head())
 
 # pred_df.to_csv("output/temp2.csv")
diff --git a/pytorch_tabular/feature_extractor.py b/pytorch_tabular/feature_extractor.py
@@ -0,0 +1,114 @@
+# Pytorch Tabular
+# Author: Manu Joseph <manujoseph@gmail.com>
+# For license information, see LICENSE.TXT
+from collections import defaultdict
+
+import numpy as np
+import pandas as pd
+from sklearn.base import BaseEstimator, TransformerMixin
+from tqdm.autonotebook import tqdm
+
+from pytorch_tabular.models import NODEModel, TabNetModel
+from pytorch_tabular.models.mixture_density import BaseMDN
+
+try:
+    import cPickle as pickle
+except ImportError:
+    import pickle
+
+import torch
+
+
+class DeepFeatureExtractor(BaseEstimator, TransformerMixin):
+    def __init__(
+        self, tabular_model, extract_keys=["backbone_features"], drop_original=True
+    ):
+        """Initializes the Transformer and extracts the neural features
+
+        Args:
+            tabular_model (TabularModel): The trained TabularModel object
+        """
+        assert not (
+            isinstance(tabular_model.model, NODEModel)
+            or isinstance(tabular_model.model, TabNetModel)
+            or isinstance(tabular_model.model, BaseMDN)
+        ), "FeatureExtractor doesn't work for Mixture Density Networks, NODE Model, & Tabnet Model"
+        self.tabular_model = tabular_model
+        self.extract_keys = extract_keys
+        self.drop_original = drop_original
+
+    def fit(self, X, y=None):
+        """Just for compatibility. Does not do anything"""
+        return self
+
+    def transform(self, X: pd.DataFrame, y=None):
+        """Transforms the categorical columns specified to the trained neural features from the model
+
+        Args:
+            X (pd.DataFrame): DataFrame of features, shape (n_samples, n_features). Must contain columns to encode.
+            y ([type], optional): Only for compatibility. Not used. Defaults to None.
+
+        Raises:
+            ValueError: [description]
+
+        Returns:
+            pd.DataFrame: The encoded dataframe
+        """
+
+        X_encoded = X.copy(deep=True)
+        orig_features = X_encoded.columns
+        self.tabular_model.model.eval()
+        inference_dataloader = (
+            self.tabular_model.datamodule.prepare_inference_dataloader(X_encoded)
+        )
+        logits_predictions = defaultdict(list)
+        for batch in tqdm(inference_dataloader, desc="Generating Features..."):
+            for k, v in batch.items():
+                if isinstance(v, list) and (len(v) == 0):
+                    # Skipping empty list
+                    continue
+                batch[k] = v.to(self.tabular_model.model.device)
+            _, ret_value = self.tabular_model.model.predict(
+                batch, ret_model_output=True
+            )
+            for k in self.extract_keys:
+                if k in ret_value.keys():
+                    logits_predictions[k].append(ret_value[k].detach().cpu())
+
+        for k, v in logits_predictions.items():
+            v = torch.cat(v, dim=0).numpy()
+            if v.ndim == 1:
+                v = v.reshape(-1, 1)
+            for i in range(v.shape[-1]):
+                if v.shape[-1] > 1:
+                    X_encoded[f"{k}_{i}"] = v[:, i]
+                else:
+                    X_encoded[f"{k}"] = v[:, i]
+
+        if self.drop_original:
+            X_encoded.drop(columns=orig_features, inplace=True)
+        return X_encoded
+
+    def fit_transform(self, X: pd.DataFrame, y=None):
+        """Encode given columns of X based on the learned features.
+
+        Args:
+            X (pd.DataFrame): DataFrame of features, shape (n_samples, n_features). Must contain columns to encode.
+            y ([type], optional): Only for compatibility. Not used. Defaults to None.
+
+        Returns:
+            pd.DataFrame: The encoded dataframe
+        """
+        self.fit(X, y)
+        return self.transform(X)
+
+    def save_as_object_file(self, path):
+        if not self._mapping:
+            raise ValueError(
+                "`fit` method must be called before `save_as_object_file`."
+            )
+        pickle.dump(self.__dict__, open(path, "wb"))
+
+    def load_from_object_file(self, path):
+        for k, v in pickle.load(open(path, "rb")).items():
+            setattr(self, k, v)
diff --git a/tests/test_common.py b/tests/test_common.py
@@ -2,20 +2,27 @@
 """Tests for `pytorch_tabular` package."""
 
 import pytest
-import numpy as np
 import torch
-from sklearn.preprocessing import PowerTransformer
-from pytorch_tabular.config import DataConfig, OptimizerConfig, TrainerConfig
-from pytorch_tabular.models import CategoryEmbeddingModelConfig, AutoIntConfig, NodeConfig, TabNetModelConfig, CategoryEmbeddingMDNConfig
+
 from pytorch_tabular import TabularModel
-from pytorch_tabular.categorical_encoders import CategoricalEmbeddingTransformer
-
-MODEL_CONFIGS = [
-    CategoryEmbeddingModelConfig, 
-    AutoIntConfig, 
-    NodeConfig, 
-    TabNetModelConfig, 
-    CategoryEmbeddingMDNConfig
+from pytorch_tabular.config import DataConfig, OptimizerConfig, TrainerConfig
+from pytorch_tabular.feature_extractor import DeepFeatureExtractor
+from pytorch_tabular.models import (
+    AutoIntConfig,
+    CategoryEmbeddingModelConfig,
+    NodeConfig,
+    TabNetModelConfig,
+)
+
+MODEL_CONFIG_SAVE_TEST = [
+    CategoryEmbeddingModelConfig,
+    AutoIntConfig,
+    TabNetModelConfig,
+]
+
+MODEL_CONFIG_FEATURE_EXT_TEST = [
+    CategoryEmbeddingModelConfig,
+    AutoIntConfig,
 ]
 
 
@@ -25,7 +32,7 @@ def fake_metric(y_hat, y):
 
 @pytest.mark.parametrize(
     "model_config_class",
-    MODEL_CONFIGS,
+    MODEL_CONFIG_SAVE_TEST,
 )
 @pytest.mark.parametrize(
     "continuous_cols",
@@ -52,7 +59,7 @@ def test_save_load(
     custom_metrics,
     custom_loss,
     custom_optimizer,
-    tmpdir
+    tmpdir,
 ):
     (train, test, target) = regression_data
     data_config = DataConfig(
@@ -83,12 +90,67 @@ def test_save_load(
     )
 
     result_1 = tabular_model.evaluate(test)
-    print(result_1)
-    tmpdir.mkdir("save_model")
-    tabular_model.save_model("save_model")
-    new_mdl = TabularModel.load_from_checkpoint("save_model")
+    sv_dir = tmpdir.mkdir("save_model")
+    tabular_model.save_model(str(sv_dir))
+    new_mdl = TabularModel.load_from_checkpoint(str(sv_dir))
     result_2 = new_mdl.evaluate(test)
-    assert result_1[0][f'test_{tabular_model.model.hparams.metrics[0]}'] == result_2[0][f'test_{new_mdl.model.hparams.metrics[0]}']
+    assert (
+        result_1[0][f"test_{tabular_model.model.hparams.metrics[0]}"]
+        == result_2[0][f"test_{new_mdl.model.hparams.metrics[0]}"]
+    )
+
+
+@pytest.mark.parametrize(
+    "model_config_class",
+    MODEL_CONFIG_FEATURE_EXT_TEST,
+)
+@pytest.mark.parametrize(
+    "continuous_cols",
+    [
+        [
+            "AveRooms",
+            "AveBedrms",
+            "Population",
+            "AveOccup",
+            "Latitude",
+            "Longitude",
+        ],
+    ],
+)
+@pytest.mark.parametrize("categorical_cols", [["HouseAgeBin"]])
+def test_feature_extractor(
+    regression_data,
+    model_config_class,
+    continuous_cols,
+    categorical_cols,
+):
+    (train, test, target) = regression_data
+    data_config = DataConfig(
+        target=target,
+        continuous_cols=continuous_cols,
+        categorical_cols=categorical_cols,
+    )
+    model_config_params = dict(task="regression")
+    model_config = model_config_class(**model_config_params)
+    trainer_config = TrainerConfig(
+        max_epochs=3, checkpoints=None, early_stopping=None, gpus=0
+    )
+    optimizer_config = OptimizerConfig()
+
+    tabular_model = TabularModel(
+        data_config=data_config,
+        model_config=model_config,
+        optimizer_config=optimizer_config,
+        trainer_config=trainer_config,
+    )
+    tabular_model.fit(
+        train=train,
+        test=test,
+    )
+    dt = DeepFeatureExtractor(tabular_model)
+    enc_df = dt.fit_transform(test)
+    assert any([col for col in enc_df.columns if "backbone" in col])
+
 
 # import numpy as np
 # import pandas as pd