2015/04/29

「SQL実践入門」がとてもわかりやすい

最近出た「SQL実践入門」を読んでいます。「達人に学ぶ〜」シリーズで有名なミックさんの新著で主にSQLのパフォーマンスについての話をメインとした本。
相変わらず説明がとてもわかりやすく非常によい本だったので紹介。

SQLとパフォーマンスについての話がメイン

個人的にDB関連の書籍の分類は大きく以下の3種類に分類して考えているのですが、本書については一番上のカテゴリにはいりそうです。(「プログラマのためのSQL」も一番上かな・・・)
  • SQL、パフォーマンス(実行計画)
    • 本著
    • 達人に学ぶSQL徹底指南書
    • SQLパズル(積んでる・・・)など
  • テーブル設計
    • 達人に学ぶDB設計徹底指南書
    • 理論から学ぶデータベース実践入門など
  • DBMS製品個別の話(DB運用含む)
    • 内部構造から学ぶPostgreSQL
    • SQL Server 2008 ビギナーズガイド
    • エキスパートのためのMySQLトラブルシューティングガイド(読んでない・・・)など
SQLの基本となる考え方、テクニック、実行計画の読み解き方といった所から、DBを使用する際のボトルネックをどのように解消していけばいいのかという話がメインになっています。

ミックさんといえば「達人に学ぶSQL徹底指南書」「達人に学ぶDB設計徹底指南書」が有名。両著は非常にわかりやすく、DB関連の入門書としてかなりオススメの2冊です。
本書は「達人に学ぶSQL徹底指南書」より一歩踏み込んだ内容になっており、恐らくそちらを読んでからの方が深く理解できそうです。

主にPostgreSQLとOracleの実行計画を確認しながら、話を進めていくような形になっているので、少なくとも実行計画とはなんぞや?くらいの知識があるとよさそうです。
なお、実行計画の読み方は本書内で説明されているのでなんとかなるかと。

SQL実行時に使用されるアルゴリズムがわかる

この辺りちゃんと理解していないとオプティマイザーの気持ちがわからなくて、有効なインデックスの付け方や実行計画の操作が上手くできないのですよね。。。

SQL実行時に使用されるアルゴリズム(実行計画で見ることができる)にはそれぞれの操作毎に複数のアルゴリズムが存在します。
  • 例)Join
    • Nested Loop Join
    • Hash Join
    • Merge Join
自分はDB関連の知識としては主にMySQLあたりから入ったので、MySQLでサポートされていないアルゴリズム(例えばJoinはMySQLは5.5まではNested Loop Joinしかサポートされていなかった)について説明されているのがとてもありがたい感じでした。

あと、「達人に学ぶ〜」よりもウィンドウ関数に関してさらに複雑な使い方が紹介されていたりします。
衝撃的だったのは本著で「ぐるぐる系」と呼ばれているカーソルを回して処理をする系のロジック(性能問題になりやすい)をウィンドウ関数で書き換える話の中で、現在のレコードとひとつ前のレコードを比較して何かを判定するみたいな処理をウィンドウ関数で書き換えるという例で、これは目からウロコでした・・・!

これ、ウィンドウ関数を使えばできるのかー!!まじかー

まとめ

DBのパフォーマンス問題で悩んでいるような人は一度読んでおいて損はないのではないのかなと思います。

ただ、MySQLやSQL Severなどで最近採用されているクラスターインデックスの話なんかはこの本ではサポートされていない(まだ読んでいない箇所に書かれていなければ・・・)ので、そういった製品を利用している場合はその辺りについても併せて知識を得ておくとよさそうです。
(実際このあたりの製品使っているとクラスターインデックスの理解大事なんですよ。。。)


2015/03/12

PostgreSQLのコードを読む話(4)

前回はオプティマイザー周りに入ったのでした。


多分 optimizer の planner.c あたりを読み進めると検索プランの作成方法が、
Portal あたり(どこだ?)を読み進めると、検索プランに従って実際に検索を行う処理が見つかる気がする。

今回は Portal の方にあたりをつけて読み進めてみることにする。

CreatePortal

  • http://127.0.0.1:9292/home/postgres/src/backend/utils/mmgr/README
  • readmeみる
  • mmgr は Memory Manager っぽい
  • Context単位でメモリ管理をするようなモデルらしい

PortalDefineQuery

parseされたStatementを受け取っているので、ここで実行?
statement 名を設定しているだけだった。。。

PortalStart

実行準備とのこと
なにやら strategy にしたがって動作している

PortalSetResultFormat

見てない

PortalRun

多分ここが実行。。。
時間切れだったので、次回はここから。

PostgreSQLのコードを読む話(3)

前回の続き、フロントエンドとバックエンド間の通常操作サブプロトコルのひとつ、Queryを読んでみることにした。

ここから
https://github.com/postgres/postgres/blob/master/src/backend/tcop/postgres.c#L3969

exec_simple_queryに入った

https://github.com/postgres/postgres/blob/master/src/backend/tcop/postgres.c#L824
  • start_xact_command - トランザクション?いったん飛ばす
  • drop_unnamed_stmt - 名無しのステートメントを除去?一端とばす
  • MemoryContextSwitchTo
  • pg_parse_query - クエリをパースしてツリーを作るっぽい
  • コンテキスト戻している
  • ツリーをトラバースしている。。。
    • pg_plan_queries - クエリプラン作成?ここで色々しているとのこと
    • Portalってなんだろう?カーソルのことらしい
    • CommandCounterIncrement トランザクション関連らしい。飛ばす
      home/postgres/src/backend/access/transam/README トランザクションシステムの説明

pg_plan_queriesからオプティマイザーあたりに入った

  • プラグインでoptimizerのプランナーフックを仕掛けることが可能っぽい
  • pull_up_sublinks - any/existsを内部的にjoinに変形するらしい

オプティマイザーの全体を俯瞰した方がよいかと思いREADMEを見る

https://github.com/postgres/postgres/blob/master/src/backend/optimizer/README#L286
optimizerの動作についての説明がのっていた

時間切れ、次回はここから見ていこう。。。

2015/01/25

PostgreSQLのコードを読む話(2)

前回の続き。先日のサッポロビームで活動してきた。
今回はほとんどコードを読んでいない。
postgres.c の PostgresMain の query とか parse とは?というあたりを調べた。
あとはPostgreSQLのドキュメントを色々読んでた。

"簡易問い合わせ"と"拡張問い合わせ"

PostgreSQLのドキュメントの「フロントエンド/バックエンドプロトコル」が参考になります。通常利用される問い合わせプロトコルに"簡易問い合わせ"と"拡張問い合わせ"があるとのこと。

フロントエンド/バックエンドプロトコル


  1. 接続開始
  2. 通常操作
    • 簡易問い合わせ
      • Query
    • 拡張問い合わせ
      • Parse
      • Bind
      • Execute
    • 関数呼び出し
      • FunctionCall(非推奨らしい、Bind & Executeを利用せよとのこと)
    • その他特殊な操作向け
      • Copy
      • など...
  3. 接続終了

PostgresMain ではこのプロトコルの内、接続開始後の各サブプロトコルの種類を判別してそれぞれのサブプロトコルで定義される操作を呼び出している模様。

簡易問い合わせと拡張問い合わせの概要は次の通り。
"簡易問い合わせ"プロトコルでは、フロントエンドはテキストで問い合わせ文字列を単に送信し、バックエンドによって解析され、即実行されます。
"拡張問い合わせ"プロトコルでは、問い合わせの処理は、解析、パラメータ値の結び付け、そして実行という複数の段階に分離されます。 これは複雑性が加わりますが、柔軟性と性能という点で利点が生まれます。
このあたりを念頭に各操作の内容を読んでいけばなんとかなりそう。

その他

演算子クラス/演算子族

ひたすらドキュメントを読んでたらインデックス周りで演算子クラスとか演算子族というのが出てきた。
インデックスの種類やデータ型ごとに演算子クラスをユーザが定義することで、独自にインデックスを拡張できる?らしい。演算子クラスをまとめたのが演算子族?なのかな?インデックス周りを確認するときにもうちょっとちゃんと調べる予定。

Notify

肉さん情報。バックエンドからフロントエンド側に何らかのタイミングで通知を送る機能があるらしい。そのうち調べる。

次回

https://github.com/postgres/postgres/blob/master/src/backend/tcop/postgres.c#L3969
前回と同じくここから。通常操作のサブプロトコルからひとつ(Queryがよいかな)を読んで、その後DBの物理ファイルやインデックス周りの箇所を調べる予定。

参考資料


2015/01/18

PostgreSQLのコードを読む話(1)

昨年末からちびちびとPostgreSQLのコードを読み始めた。
ちびちび読んでいるので、次読むときにどこ読めばいいか忘れるのでその記録。

とは言ってもそんなに C に堪能ではないので、結構飛ばしつつ流れを追っている段階。。。
まずはインデックスとかDBの物理ファイルあたりにたどりつくのが目標。

前回までに読んだところ

  • src/backend/main/main.c
    コマンドでサーバーを起動したときの開始ポイント。まずはここから
  • src/backend/postmaster/postmaster.c#PostmasterMain
    マスタープロセスの起動部分。マスタープロセスから起動時に各種バックエンドプロセスが、コネクション接続時にバックエンドプロセスがフォークされる模様

今回読んだところ

  • src/backend/tcop/postgres.c#PostgresMain
    コネクション毎にpostmasterからフォークして作成されるバックエンドプロセスのメイン部分。コネクションを通してクエリを受け取ったりする。。。はず

次回

  • https://github.com/postgres/postgres/blob/master/src/backend/tcop/postgres.c#L3969
ここから。バックエンドでコマンドを受け取って種類ごとにゴニョゴニョするっぽい。

疑問

  • 次回読み始める箇所のコマンドにあたるものの位置づけがまだ把握できていない(queryの他にparseとかある。parseは何のparse?)
  • ディレクトリ名のtcopってなんだ?
  • DBの物理ファイルとかバッファプール関連の初期化箇所をすっ飛ばしたっぽい。。。
  • Windows の場合は fork する代わりに exe ファイルを起動しまくっている?

役立つもの

2014/09/29

RubyKaigi2014 に参加してきました

もひゃです!先日開催された RubyKaigi2014 に参加してきました!

ジュンク堂RubyKaigi支店に貢献してきました。帰り道は重みがつらい。。。自制心、大事。

初の The RubyKaigi 参加かつ、東京にあまり知り合いもいないしで緊張したのですが、
いつもの札幌勢&元札幌勢がたくさんいたので、さほどぼっちにはならず。ありがたいー。

@nagachika さんの CRuby Committers Who's Who in 2014 (@see 2013)が生で見れたり、@tenderlove 氏の生駄洒落クラブを見れたり、@kakutani さん(緊張したり、元気だったり疲れたりとせわしない)を見れたりと、"お約束"的な所はひと通り堪能し、聞きたいセッションもだいたい聞けたので満足でした!

全体としては、半分強くらいが英語のセッションだった印象。
英語セッションはちょっと聞き逃すと話の筋を理解できないことが多かったので、ちょっと鍛錬しておいたほうがより楽しめそう。。。

以下、いくつか聞いた中で特に面白かったなぁというセッションをちょっと紹介。

2014/09/08

"サーバー/インフラを支える技術"を読んだ

たまたま図書館にあったのでなにとなく借りたのだけれど、とても良かった。
ぼんやりとは知っているけど、ちゃんとわかっていなかったインフラ関係のあれこれを整理することができた。

  • インフラ冗長化の仕組み
  • インフラ冗長化構成の一例
  • Reverse Proxy 等の意義と役割
  • サーバーのチューニング
  • 運用

ちょうど、先日 +Naoya Ito さんが書いてた "Reverse Proxy がなぜ必要か" とかその辺りの話についても詳しく書いてある。(該当箇所はまさに naoya さんが執筆している)
本人が "(とっても)素晴らしい本" と紹介しているが、実際インフラまわりの知識を俯瞰することができる良書だと思う。かなりよかった。

ただし、発行年がちょっと古い(2008)ので、ちょっと内容が古くなってしまっている箇所があるのには注意が必要そう。今だと nginx を使うよぜーという箇所で Apache を使うような構成が紹介されていたりということがあるので、その点については新しい情報を追う必要がありそうです。

個人的には Reverse Proxy の役割とか、ロードバランサーの冗長化ってどうやってるの?みたいな箇所が fmfm なるほどー!でした。インフラ気になる人には大変オススメ。