wip: added sliced dataset to pytorch functionality

PJEstrada · PJEstrada · commit 15241d42012a · 2021-08-09T16:24:22.000-06:00
diff --git a/sdk/diffgram/core/diffgram_dataset_iterator.py b/sdk/diffgram/core/diffgram_dataset_iterator.py
@@ -1,6 +1,6 @@
 from PIL import Image, ImageDraw
 from imageio import imread
-
+import numpy as np
 
 class DiffgramDatasetIterator:
 
@@ -42,7 +42,7 @@ def get_image_data(self, diffgram_file):
             raise Exception('Pytorch datasets only support images. Please provide only file_ids from images')
 
     def get_file_instances(self, diffgram_file):
-        if diffgram_file['type'] not in ['image', 'frame']:
+        if diffgram_file.type not in ['image', 'frame']:
             raise NotImplementedError('File type "{}" is not supported yet'.format(diffgram_file['type']))
 
         image = self.get_image_data(diffgram_file)
diff --git a/sdk/diffgram/core/directory.py b/sdk/diffgram/core/directory.py
@@ -96,17 +96,19 @@ def all_file_ids(self):
 		page_num = 1
 		result = []
 		while page_num is not None:
-			diffgram_files = self.list_files(limit = 1000, page_num = page_num, file_view_mode = 'ids_only')
+			diffgram_ids = self.list_files(limit = 1000, page_num = page_num, file_view_mode = 'ids_only')
 			page_num = self.file_list_metadata['next_page']
-			result = result + diffgram_files
+			result = result + diffgram_ids
 		return result
 
 	def slice(self, query):
 		from diffgram.core.sliced_directory import SlicedDirectory
-		result = self.list_files(
+		# Get the first page to validate syntax.
+		self.list_files(
 			limit = 25,
 			page_num = 1,
-			file_view_mode = 'ids_only'
+			file_view_mode = 'ids_only',
+			query = query,
 		)
 		sliced_dataset = SlicedDirectory(
 			client = self.client,
@@ -120,7 +122,6 @@ def to_pytorch(self, transform = None):
 			Transforms the file list inside the dataset into a pytorch dataset.
 		:return:
 		"""
-		from diffgram.core.sliced_directory import SlicedDirectory
 		file_id_list = self.all_file_ids()
 		pytorch_dataset = DiffgramPytorchDataset(
 			project = self.client,
@@ -211,7 +212,6 @@ def list_files(
 		else:
 			logging.info("Using Default Dataset ID " + str(self.client.directory_id))
 			directory_id = self.client.directory_id
-		#print("directory_id", directory_id)
 
 		metadata = {'metadata' :
 			{
@@ -222,7 +222,8 @@ def list_files(
 				'media_type': "All",
 				'page': page_num,
 				'file_view_mode': file_view_mode,
-				'search_term': search_term
+				'search_term': search_term,
+				'query': query
 			}
 		}
 
@@ -245,14 +246,17 @@ def list_files(
 		self.file_list_metadata = data.get('metadata')
 		# TODO would like this to perhaps be a seperate function
 		# ie part of File_Constructor perhaps
-		file_list = []
-		for file_json in file_list_json:
-			file = File.new(
-				client = self.client,
-				file_json = file_json)
-			file_list.append(file)
-
-		return file_list
+		if file_view_mode == 'ids_only':
+			return file_list_json
+		else:
+			file_list = []
+			for file_json in file_list_json:
+				file = File.new(
+					client = self.client,
+					file_json = file_json)
+				file_list.append(file)
+
+			return file_list
 
 
 	def get(self, 
diff --git a/sdk/diffgram/core/sliced_directory.py b/sdk/diffgram/core/sliced_directory.py
@@ -1,17 +1,21 @@
 from diffgram.core.directory import Directory
 from diffgram.pytorch_diffgram.diffgram_pytorch_dataset import DiffgramPytorchDataset
 
+
 class SlicedDirectory(Directory):
 
     def __init__(self, client, original_directory: Directory, query: str):
         self.original_directory = original_directory
         self.query = query
         self.client = client
+        # Share the same ID from the original directory as this is just an in-memory construct for better semantics.
+        self.id = original_directory.id
 
     def all_file_ids(self):
         page_num = 1
         result = []
         while page_num is not None:
+            print('slcied query', self.query)
             diffgram_files = self.list_files(limit = 1000,
                                              page_num = page_num,
                                              file_view_mode = 'ids_only',
@@ -20,7 +24,6 @@ def all_file_ids(self):
             result = result + diffgram_files
         return result
 
-
     def to_pytorch(self, transform = None):
         """
             Transforms the file list inside the dataset into a pytorch dataset.
@@ -34,4 +37,3 @@ def to_pytorch(self, transform = None):
 
         )
         return pytorch_dataset
-
diff --git a/sdk/diffgram/pytorch_diffgram/diffgram_pytorch_dataset.py b/sdk/diffgram/pytorch_diffgram/diffgram_pytorch_dataset.py
@@ -1,8 +1,5 @@
-import os
-
-import numpy as np
-import scipy as sp
-
+from torch.utils.data import Dataset, DataLoader
+import torch as torch  # type: ignore
 from diffgram.core.diffgram_dataset_iterator import DiffgramDatasetIterator
 
 
@@ -15,20 +12,12 @@ def __init__(self, project, diffgram_file_id_list = None, transform = None):
         :param diffgram_file_list (list): An arbitrary number of file ID's from Diffgram.
         :param transform (callable, optional): Optional transforms to be applied on a sample
         """
-        super(DiffgramDatasetIterator, self).__init__(project, diffgram_file_id_list)
-        global torch, Dataset, DataLoader
-        try:
-            import torch as torch  # type: ignore
-            from torch.utils.data import Dataset, DataLoader
-        except ModuleNotFoundError:
-            raise ModuleNotFoundError(
-                "'torch' module should be installed to convert the Dataset into pytorch format"
-            )
+        super(DiffgramPytorchDataset, self).__init__(project, diffgram_file_id_list)
+
         self.diffgram_file_id_list = diffgram_file_id_list
 
         self.project = project
         self.transform = transform
-        self.__validate_file_ids()
 
     def __len__(self):
         return len(self.diffgram_file_id_list)
diff --git a/sdk/diffgram/tensorflow_diffgram/pytorch_test.py b/sdk/diffgram/tensorflow_diffgram/pytorch_test.py
@@ -18,22 +18,26 @@
 
 
 # Draw
-import matplotlib.pyplot as plt
-from PIL import Image, ImageDraw
-img = Image.new("L", [diffgram_dataset[0]['diffgram_file'].image['width'], diffgram_dataset[0]['diffgram_file'].image['height']], 0)
-mask1 = diffgram_dataset[0]['polygon_mask_list'][0]
-mask2 = diffgram_dataset[0]['polygon_mask_list'][1]
-plt.figure()
-plt.subplot(1,2,1)
-# plt.imshow(img, 'gray', interpolation='none')
-plt.imshow(mask1, 'jet', interpolation='none', alpha=0.7)
-plt.imshow(mask2, 'Oranges', interpolation='none', alpha=0.7)
-plt.show()
+def display_masks():
+    import matplotlib.pyplot as plt
+    from PIL import Image, ImageDraw
+    img = Image.new("L", [diffgram_dataset[0]['diffgram_file'].image['width'],
+                          diffgram_dataset[0]['diffgram_file'].image['height']], 0)
+    mask1 = diffgram_dataset[0]['polygon_mask_list'][0]
+    mask2 = diffgram_dataset[0]['polygon_mask_list'][1]
+    plt.figure()
+    plt.subplot(1, 2, 1)
+    # plt.imshow(img, 'gray', interpolation='none')
+    plt.imshow(mask1, 'jet', interpolation = 'none', alpha = 0.7)
+    plt.imshow(mask2, 'Oranges', interpolation = 'none', alpha = 0.7)
+    plt.show()
 
 
 # Dataset Example
 
 dataset = project.directory.get('Default')
 
+pytorch_dataset = dataset.to_pytorch()
+
 sliced_dataset = dataset.slice(query = 'labels.sheep  > 0 or labels.sofa > 0')