Webサイト制作コースのお申し込みはこちら Webサイト制作コースのお申し込みはこちら

SQLのdistinctとgroup byの実行速度についてまとめています。

以下、データベースとして、MySQLのサンプルデータベースEmployeesを使っています

distinctとgroup byで速度差がでるサンプルSQL

下記は、employees(社員)テーブルから、姓名の名と性別を重複なしで抽出するSQLです。上位100件のみ出力しています。

mysql> SELECT distinct first_name, gender FROM `employees` limit 100;
+-------------+--------+
| first_name  | gender |
+-------------+--------+
| Georgi      | M      |
| Bezalel     | F      |
| Parto       | M      |
| Chirstian   | M      |
| Kyoichi     | M      |
| Anneke      | F      |
 :
 :
100 rows in set (0.01 sec)

同じ結果を出力するSQLをgroup byを使って記述するとこうなります。

mysql> SELECT first_name, gender FROM `employees`
    -> group by first_name, gender limit 100;
+-------------+--------+
| first_name  | gender |
+-------------+--------+
| Georgi      | M      |
| Bezalel     | F      |
| Parto       | M      |
| Chirstian   | M      |
| Kyoichi     | M      |
| Anneke      | F      |
 :
 :
100 rows in set (27.55 sec)

単純計算で2700倍以上の速度差が出ています。単純にデータの種類だけを出力するなら、distinctを使った方が圧倒的に速そうです。

【関連記事】
SQL distinctのサンプルコード集 group byよりも700倍速い?

distinctとgroup byの実行計画をチェック

distinctとgroup byを使ったSQLをそれぞれexplainしたところ以下の結果となりました。

まずはdistinctを使ったSQL。type=ALLとなっているのでテーブルフルスキャン(全件検索)が起こっています。

mysql> explain SELECT distinct first_name, gender FROM `employees`;
+----+-------------+-----------+------------+------+---------------+------+---------+------+--------+----------+-----------------+
| id | select_type | table     | partitions | type | possible_keys | key  | key_len | ref  | rows   | filtered | Extra           |
+----+-------------+-----------+------------+------+---------------+------+---------+------+--------+----------+-----------------+
|  1 | SIMPLE      | employees | NULL       | ALL  | NULL          | NULL | NULL    | NULL | 299246 |   100.00 | Using temporary |
+----+-------------+-----------+------------+------+---------------+------+---------+------+--------+----------+-----------------+
1 row in set, 1 warning (0.00 sec)

group byを使ったSQLをexplainするとこうなります。なんと、distinctの場合と全く同じ実行計画です。

mysql> explain SELECT first_name, gender FROM `employees`
    -> group by first_name, gender;
+----+-------------+-----------+------------+------+---------------+------+---------+------+--------+----------+-----------------+
| id | select_type | table     | partitions | type | possible_keys | key  | key_len | ref  | rows   | filtered | Extra           |
+----+-------------+-----------+------------+------+---------------+------+---------+------+--------+----------+-----------------+
|  1 | SIMPLE      | employees | NULL       | ALL  | NULL          | NULL | NULL    | NULL | 299246 |   100.00 | Using temporary |
+----+-------------+-----------+------------+------+---------------+------+---------+------+--------+----------+-----------------+
1 row in set, 1 warning (0.00 sec)

explainの結果だけを見て判断してしまうと「どちらでも同じ」と考えてしまいそうですね。要注意です。

なお、joinするような場合はdistinctよりもexistsを使うとさらに速いという情報や、場合によってはgroup byの方が速いという情報もあり、単純に決めるのは難しそう。

参考)重複行のまとめ方はGROUP BY?DISTINCT? – Qiita

全件検索せざるをえないような遅くなりそうなクエリでは、explainによる実行計画だけで判断せず、ある程度の件数のテストデータを使ってレスポンスの違いを観察する必要があります。

まとめ

ポテパンダの一言メモ
  • 単純な全件検索では、distinctがgroup byよりも速い
  • joinする場合はdistinctよりもexistsを使った方が速いケースもあり
  • explainの結果が全く同じでもレスポンスが大きく違うことがあるため、実際にデータを使ったレスポンステストが必要

 

エンジニアになりたい人に選ばれるプログラミングスクール「ポテパンキャンプ 」

ポテパンキャンプは卒業生の多くがWebエンジニアとして活躍している実践型プログラミングスクールです。 1000名以上が受講しており、その多くが上場企業、ベンチャー企業のWebエンジニアとして活躍しています。

基礎的な学習だけで満足せず、実際にプログラミングを覚えて実践で使えるレベルまで学習したいという方に人気です。 プログラミングを学習し実践で使うには様々な要素が必要です。

それがマルっと詰まっているポテパンキャンプでプログラミングを学習してみませんか?

卒業生の多くがWebエンジニアとして活躍

卒業生の多くがWeb企業で活躍しております。
実践的なカリキュラムをこなしているからこそ現場でも戦力となっております。
活躍する卒業生のインタビューもございますので是非御覧ください。

経験豊富なエンジニア陣が直接指導

実践的なカリキュラムと経験豊富なエンジニアが直接指導にあたります。
有名企業のエンジニアも多数在籍し品質高いWebアプリケーションを作れるようサポートします。

満足度高くコスパの高いプログラミングスクール「ポテパンキャンプ」

運営する株式会社ポテパンは10,000人以上のエンジニアのキャリアサポートを行ってきております。
そのノウハウを活かして実践的なカリキュラムを随時アップデートしております。

代表の宮崎もプログラミングを覚えサイトを作りポテパンを創業しました。
本気でプログラミングを身につけたいという方にコスパ良く受講していただきたいと思っておりますので、気になる方はぜひスクール詳細をのぞいてくださいませ。