databricks
diff --git a/‎databricks/koalas/base.py‎
Lines changed: 3 additions & 2 deletions b/‎databricks/koalas/base.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎databricks/koalas/frame.py‎
Lines changed: 7 additions & 6 deletions b/‎databricks/koalas/frame.py‎
Lines changed: 7 additions & 6 deletions
diff --git a/‎databricks/koalas/groupby.py‎
Lines changed: 6 additions & 4 deletions b/‎databricks/koalas/groupby.py‎
Lines changed: 6 additions & 4 deletions
diff --git a/‎databricks/koalas/series.py‎
Lines changed: 8 additions & 11 deletions b/‎databricks/koalas/series.py‎
Lines changed: 8 additions & 11 deletions
@@ -31,7 +31,8 @@
 
 from databricks import koalas as ks  # For running doctests and reference resolution in PyCharm.
 from databricks.koalas import numpy_compat
-from databricks.koalas.internal import _InternalFrame, SPARK_INDEX_NAME_FORMAT
+from databricks.koalas.internal import (_InternalFrame, NATURAL_ORDER_COLUMN_NAME,
+                                        SPARK_INDEX_NAME_FORMAT)
 from databricks.koalas.typedef import pandas_wraps, spark_type_to_pandas_dtype
 from databricks.koalas.utils import align_diff_series, scol_for, validate_axis
 from databricks.koalas.frame import DataFrame
@@ -790,7 +791,7 @@ def _shift(self, periods, fill_value, part_cols=()):
             raise ValueError('periods should be an int; however, got [%s]' % type(periods))
 
         col = self._scol
-        window = Window.partitionBy(*part_cols).orderBy(self._internal.index_scols)\
+        window = Window.partitionBy(*part_cols).orderBy(NATURAL_ORDER_COLUMN_NAME) \
             .rowsBetween(-periods, -periods)
         lag_col = F.lag(col, periods).over(window)
         col = F.when(lag_col.isNull() | F.isnan(lag_col), fill_value).otherwise(lag_col)
 
@@ -3185,13 +3185,14 @@ def duplicated(self, subset=None, keep='first'):
                 ord_func = spark.functions.asc
             else:
                 ord_func = spark.functions.desc
-            window = Window.partitionBy(group_cols).orderBy(ord_func(index_column)).rowsBetween(
-                Window.unboundedPreceding, Window.currentRow)
+            window = Window.partitionBy(group_cols) \
+                .orderBy(ord_func(NATURAL_ORDER_COLUMN_NAME)) \
+                .rowsBetween(Window.unboundedPreceding, Window.currentRow)
             sdf = sdf.withColumn(column, F.row_number().over(window) > 1)
         elif not keep:
-            window = Window.partitionBy(group_cols).orderBy(scol_for(sdf, index_column).desc())\
+            window = Window.partitionBy(group_cols) \
                 .rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing)
-            sdf = sdf.withColumn(column, F.count(scol_for(sdf, index_column)).over(window) > 1)
+            sdf = sdf.withColumn(column, F.count('*').over(window) > 1)
         else:
             raise ValueError("'keep' only support 'first', 'last' and False")
         sdf = sdf.select(scol_for(sdf, index_column), scol_for(sdf, column))
@@ -7853,8 +7854,8 @@ def pct_change(self, periods=1):
         1980-02-01       NaN       NaN      NaN
         1980-03-01  0.067912  0.073814  0.06883
         """
-        sdf = self._sdf.drop(NATURAL_ORDER_COLUMN_NAME)
-        window = Window.orderBy(self._internal.index_columns).rowsBetween(-periods, -periods)
+        sdf = self._sdf
+        window = Window.orderBy(NATURAL_ORDER_COLUMN_NAME).rowsBetween(-periods, -periods)
 
         for column_name in self._internal.data_columns:
             prev_row = F.lag(F.col(column_name), periods).over(window)
 
@@ -2055,9 +2055,10 @@ def nsmallest(self, n=5):
         groupkeys = self._groupkeys
         sdf = self._kdf._sdf
         name = self._agg_columns[0]._internal.data_columns[0]
-        window = Window.partitionBy([s._scol for s in groupkeys]).orderBy(F.col(name))
+        window = Window.partitionBy([s._scol for s in groupkeys]) \
+            .orderBy(scol_for(sdf, name), NATURAL_ORDER_COLUMN_NAME)
         sdf = sdf.withColumn('rank', F.row_number().over(window)).filter(F.col('rank') <= n)
-        internal = _InternalFrame(sdf=sdf,
+        internal = _InternalFrame(sdf=sdf.drop(NATURAL_ORDER_COLUMN_NAME),
                                   index_map=([(s._internal.data_columns[0],
                                                s._internal.column_index[0])
                                               for s in self._groupkeys]
@@ -2101,9 +2102,10 @@ def nlargest(self, n=5):
         groupkeys = self._groupkeys
         sdf = self._kdf._sdf
         name = self._agg_columns[0]._internal.data_columns[0]
-        window = Window.partitionBy([s._scol for s in groupkeys]).orderBy(F.col(name).desc())
+        window = Window.partitionBy([s._scol for s in groupkeys]) \
+            .orderBy(F.col(name).desc(), NATURAL_ORDER_COLUMN_NAME)
         sdf = sdf.withColumn('rank', F.row_number().over(window)).filter(F.col('rank') <= n)
-        internal = _InternalFrame(sdf=sdf,
+        internal = _InternalFrame(sdf=sdf.drop(NATURAL_ORDER_COLUMN_NAME),
                                   index_map=([(s._internal.data_columns[0],
                                                s._internal.column_index[0])
                                               for s in self._groupkeys]
 
@@ -1460,7 +1460,7 @@ def _fillna(self, value=None, method=None, axis=None, inplace=False, limit=None,
                 else:
                     end = Window.unboundedFollowing
 
-            window = Window.partitionBy(*part_cols).orderBy(self._internal.index_scols)\
+            window = Window.partitionBy(*part_cols).orderBy(NATURAL_ORDER_COLUMN_NAME) \
                 .rowsBetween(begin, end)
             scol = F.when(scol.isNull(), func(scol, True).over(window)).otherwise(scol)
         kseries = self._with_new_scol(scol).rename(column_name)
@@ -2850,20 +2850,17 @@ def _rank(self, method='average', ascending=True, part_cols=()):
             raise ValueError('rank do not support index now')
 
         if ascending:
-            asc_func = spark.functions.asc
+            asc_func = lambda scol: scol.asc()
         else:
-            asc_func = spark.functions.desc
-
-        index_column = self._internal.index_columns[0]
-        column_name = self._internal.data_columns[0]
+            asc_func = lambda scol: scol.desc()
 
         if method == 'first':
             window = Window.orderBy(
-                asc_func(column_name), asc_func(index_column)
+                asc_func(self._internal.scol), asc_func(F.col(NATURAL_ORDER_COLUMN_NAME))
             ).partitionBy(*part_cols).rowsBetween(Window.unboundedPreceding, Window.currentRow)
             scol = F.row_number().over(window)
         elif method == 'dense':
-            window = Window.orderBy(asc_func(column_name)).partitionBy(*part_cols) \
+            window = Window.orderBy(asc_func(self._internal.scol)).partitionBy(*part_cols) \
                 .rowsBetween(Window.unboundedPreceding, Window.currentRow)
             scol = F.dense_rank().over(window)
         else:
@@ -2874,10 +2871,10 @@ def _rank(self, method='average', ascending=True, part_cols=()):
             elif method == 'max':
                 stat_func = F.max
             window1 = Window.orderBy(
-                asc_func(column_name)
+                asc_func(self._internal.scol)
             ).partitionBy(*part_cols).rowsBetween(Window.unboundedPreceding, Window.currentRow)
             window2 = Window.partitionBy(
-                *[column_name] + list(part_cols)
+                [self._internal.scol] + list(part_cols)
             ).rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing)
             scol = stat_func(F.row_number().over(window1)).over(window2)
         kser = self._with_new_scol(scol).rename(self.name)
@@ -2959,7 +2956,7 @@ def diff(self, periods=1):
     def _diff(self, periods, part_cols=()):
         if not isinstance(periods, int):
             raise ValueError('periods should be an int; however, got [%s]' % type(periods))
-        window = Window.partitionBy(*part_cols).orderBy(self._internal.index_scols)\
+        window = Window.partitionBy(*part_cols).orderBy(NATURAL_ORDER_COLUMN_NAME) \
             .rowsBetween(-periods, -periods)
         scol = self._scol - F.lag(self._scol, periods).over(window)
         return self._with_new_scol(scol).rename(self.name)