databricks · HyukjinKwon · Jan 16, 2020 · Jan 4, 2020 · Jan 7, 2020 · Jan 10, 2020
diff --git a/databricks/koalas/groupby.py b/databricks/koalas/groupby.py
@@ -22,6 +22,7 @@
 import inspect
 from collections import Callable, OrderedDict, namedtuple
 from functools import partial
+from itertools import product
 from typing import Any, List, Tuple, Union
 
 import numpy as np
@@ -210,6 +211,12 @@ def _spark_groupby(kdf, func, groupkeys):
                 if aggfunc == "nunique":
                     reordered.append(
                         F.expr('count(DISTINCT `{0}`) as `{1}`'.format(name, data_col)))
+
+                # Implement "quartiles" aggregate function for ``describe``.
+                elif aggfunc == "quartiles":
+                    reordered.append(
+                        F.expr('percentile_approx(`{0}`, array(0.25, 0.5, 0.75)) as `{1}`'.format(name, data_col)))
+
                 else:
                     reordered.append(F.expr('{1}(`{0}`) as `{2}`'.format(name, aggfunc, data_col)))
         sdf = sdf.groupby(*groupkey_cols).agg(*reordered)
@@ -224,6 +231,26 @@ def _spark_groupby(kdf, func, groupkeys):
                               column_scols=[scol_for(sdf, col) for col in data_columns],
                               index_map=index_map)
 
+    def describe(self):
+        kdf = self.agg(["count", "mean", "std", "min", "quartiles", "max"]).reset_index()
+
+        # Split "quartiles" columns into first, second, and third quartiles.
+        for label, content in kdf.iteritems():
+            if label[1] == "quartiles":
+                exploded = ks.DataFrame(content.tolist())
+                exploded.columns = [(label[0], "25%"), (label[0], "50%"), (label[0], "75%")]
+                kdf = kdf.drop(label).join(exploded)
+
+        # Reindex the DataFrame to reflect initial grouping and agg columns.
+        input_groupnames = [s.name for s in self._groupkeys]
+        kdf.set_index([(key, "") for key in input_groupnames], inplace=True)
+        kdf.index.names = input_groupnames
+
+        # Reorder columns lexicographically by agg column followed by stats.
+        agg_cols = (col.name for col in self._agg_columns)
+        stats = ["count", "mean", "std", "min", "25%", "50%", "75%", "max"]
+        return kdf[list(product(agg_cols, stats))]
+
     def count(self):
         """
         Compute count of group, excluding missing values.

diff --git a/databricks/koalas/missing/groupby.py b/databricks/koalas/missing/groupby.py
@@ -50,7 +50,6 @@ class _MissingPandasLikeDataFrameGroupBy(object):
     # Functions
     boxplot = unsupported_function('boxplot')
     cumcount = unsupported_function('cumcount')
-    describe = unsupported_function('describe')
     get_group = unsupported_function('get_group')
     median = unsupported_function('median')
     ngroup = unsupported_function('ngroup')