Showing posts with label query. Show all posts
Showing posts with label query. Show all posts

Saturday, June 22, 2013

NoSQL! Hmmmm? No!... SQL!

This article is written in English and Portuguese
Este artigo está escrito em Inglês e Português

English version:
If you're a social networking fan and you're interested in IT (I suppose you are or you're on the wrong site), you must be aware that we're being flooded with a wave of BigData, NoSQL and so on. Everybody wants to be part of it, everybody wants to use it and at least everybody wants to know what it is. Every IT company has initiatives around it. IBM is no exception as we would expect and there has been news about collaboration with 10gen, the company behind MongoDB (one of the well known NoSQL databases). There have been also news about IBM extending it's databases with these sort of technologies.

Recently I noticed an IBM developerworks article that explains a technology preview for DB2 that explains some integration between "NoSQL applications" and the relational technology. The article is interesting and is just the first of several related documents. One of the interesting parts of this document is on the comments section. A DB2 customer on iSeries asked about the possibility of getting these features on iSeries. The answer, although not conclusive mentions that IBM is considering possible uses of this integration with other products. And asks for possible uses... Well... Wouldn't it be nice to use this in Informix together with the already available flexible grid technology? I'm no expert in NoSQL or MongoDB, but one of the characteristics of it is the ability to split the data across a number of nodes... and a query will be answered by the several nodes. This is a critical feature of MongoDB and allows it to scale... But for us, Informix users, doesn't this ring a bell? A grid of Informix nodes can work as a single instance by using the grid queries introduced in 12.1. So, a "new wave" application could get the data easily from an "old fashioned" database, that also works with nodes and horizontal scaling. Not bad, right? By the way, try Googling for "sharded queries" and see the results on the first page

Versão Portuguesa:
Se é fã das redes sociais e interessado em tecnologias de Informação (TI) (suponho que seja, ou está no sitio errado), já se deve ter apercebido que estamos a ser inundados por uma onda de informação e termos relacionados com BigData, NoSQL etc.
Toda a gente que ser parte disso, toda a gente quer usar e todos queremos pelo menos saber o que é isso.
Todas as empresas de TI têm iniciativas á volta deste tema. A IBM como seria de esperar não é excepção, e já apareceram notícias da collboração com a 10gen, e empresa por detrás do MongoDB (umas das mais conhecidas bases de dados NoSQL). Houve também notícias sobre as  intenções da IBM em extender as suas bases de dados com este tipo de funcionalidades

Apareceu recentemente um artigo no site developerworks da IBM que explica uma ante-visão desta tecnologia no DB2, falando da integração entre aplicações "NoSQL" e a tecnologia relacional. O artigo é interessante e é apenas o primeiro de vários documentos relacionados. Uma das partes mais interessantes do artigo é a secção de comentários. Um cliente de DB2 em iSeries (AS/400) perguntou sobre a possibilidade de vir a ter estas funcionalidades na tecnologia que usa. A resposta, apesar de não ser conclusiva, menciona que a IBM estará a considerar a possibilidade de expandir esta integração a outros produtos. E pergunta sobre possíveis utilizações... Bom... Não seria bom utilizar isto no Informix, juntamente com o flexible grid que já está atualmente disponível? Não sou perito em NoSQL ou MongoDB, mas uma das características é a capacidade de separar os dados por vários nós... e uma query é respondida por todos eles. Isto é uma das suas funcionalidades base e que lhe permite escalar... Mas para nós, utilizadores Informix, isto não parece familiar? Uma grelha de nós Informix podem trabalhar em conjunto como uma instância única utilizando as grid queries introduzidas na versão 12.10. Portanto, as aplicações da "nova vaga" podem obter os dados de forma fácil de uma "base de dados clássica" que também trabalha com nós e capacidade crescer horizontalmente. Nada mau, certo? Já agora, tente procurar no Google por "sharded queries" e veja os resultados da primeira página...

Sunday, February 05, 2012

Procedures / Procedimentos Owner vs Restricted

This article is written in English and Portuguese
Este artigo está escrito em Inglês e Português

English version:

Introduction

This article focus on a little known aspect of stored procedures or functions. That probably explains why it was the less voted in a recent poll I've conducted. Nonetheless it's (from my point of view) a very interesting topic. During this article I'll be referring to procedures, but I could use the term functions.
If we take a look at the sysprocedures table we'll see a field called mode. This field is just one character and the values it can contain are:

  • D or d
    DBA
  • O or o
    Owner
  • P or p
    Protected
  • R or r
    Restricted
  • T or t
    Trigger
I'm not interested in all of these, but the lower case letters mean "protected" (created by the system), D is for DBA procedures. P is an old nomenclature for protected procedures. T is used for procedures defined as Trigger procedures. And then we have O and R. O for owner mode and R for restricted mode. What is the difference between them? Assume you're using informix user and you run:
CREATE PROCEDURE test()
END PROCEDURE
You'll have an OWNER mode procedure, owned by informix user. But if instead you run:
CREATE PROCEDURE myuser.test()
END PROCEDURE
You'll have a RESTRICTED mode procedure owned by myuser.
You need to have DBA privilege to create a procedure on behalfwith another user name.

Why RESTRICTED?

The reasons why the restricted mode procedures/functions were created are based on security. Let's imagine the following scenario:
  1. You have two databases called db1 and db2
  2. You have a user myuser with connect privileges on db1 and db2 and another user mydba with DBA privileges on db1
  3. User myuser needs to be connected to db1 and run a distributed query to db2
  4. The db2's DBA grants the required privileges on db2 to user myuser
Now, without the RESTRICTED mode procedures, mydba could create a local db1 procedure on behalf of myuser, and with that it could remotely access the data on db2. Note that the db2 DBA did not intend to give the privileges to anyone else beside myuser. So a local DBA could use it's privileges to abuse some of the remote privileges granted to some of the local users.
This is why the RESTRICTED mode was created. Every time we create a procedure on behalf of another user, it will be created as a RESTRICTED mode procedure. And as such any remote operation will be done using the currently logged user and not with the identity of the procedure owner (as it happens with OWNER mode procedures).

Other implications

So, the reasons for the creation of this new mode are explained and are good reasons. But there can be another implication. Note that I'll be referencing a product issue, but it's highly probable that you'd never notice it. But the fix for that bug introduced new limits and a new error so it can be interesting to dig a bit deeper on this.
Whenever we make a remote connection inside a statement we need to open a new database. And we need to keep a record of the current opened ones. The structure of the opened databases used to be an array of "only" 8 positions. And in certain conditions we could wrap around it without raising an error. And this could lead to a nasty situation where the "current" database was not the one it should be. I noticed this on a customer environment when we started to get error -674 (procedure not found) on a procedure called from a trigger. Why is this related to the restricted vs owner mode procedures? Because with the mixed use of restricted and owner mode procedures we raise the possibility of having the same database opened with different users (the owners and our current user).
Please don't be scared with this problem. The situation I got involved around 60 objects (tables and procedures) linked together by a complex sequence of triggers that called procedures, that made INSERTs/UPDATEs/DELETEs which in turn called other procedures etc..
This sequence was started by a simple INSERT. And it involved 5 databases. The array I mentioned earlier had 8 positions.
Since then, we fixed several things and now (11.50.xC9 and 11.70.xC3):
  1. The array was increased to 32 positions
  2. If we still achieve that limit a proper error will be raised (-26600)
  3. The documentation was improved (it didn't mention any limit and it still mentions 8, but it should be fixed soon)
Versão Portuguesa:

Introdução  

Este artigo foca um aspecto pouco conhecido das stored procedures (ou funções). O facto de ser desconhecido deve ajudar a explicar porque foi o menos votado para artigos num inquérito que realizei há pouco tempo. Apesar disso, é um assunto interessante (do meu ponto de vista). Durante este artigo irei referir na maior parte das vezes "procedimentos". Mas podemos assumir "funções".
Se dermos uma vista de olhos à tabela sysprocedures podemos reparar que contém uma coluna com o nome mode. É apenas um caracter e os valores que pode conter são:
  • D or d
    DBA
  • O or o
    Owner
  • P or p
    Protected
  • R or r
    Restricted
  • T or t
    Trigger
Não estou interessado nestes todos, mas para melhor entendimento, as letras minúsculas significam que o prodedimento (ou função) é "protegido" (criado pelo sistema). D é para procedimentos DBA. P é uma nomenclatura antiga para procedimentos protegidos. T é usado para procedimentos definidos como Trigger procedures. E depois temos os O e R. O para modo owner e R para modo restricted. Qual é a diferença entre ambos? Assuma que estamos a usar o utilizador informix e corremos:
CREATE PROCEDURE teste()
END PROCEDURE
Ficaremos com um procedimento em modo OWNER, cujo dono é o informix. Mas se em vez disso fizermos:
CREATE PROCEDURE myuser.teste()
END PROCEDURE
Ficaremos com um procedimento em modo RESTRICTED cujo dono é o myuser.
É necessário ter privilégios de DBA para criar procedimentos em nome de outro utilizador.

Porquê RESTRICTED?

As razões que levaram à criação do modo RESTRICTED para funções e procedimentos prendem-se com segurança. Vamos imaginar o seguinte cenário:
  1. Temos duas bases de dados chamadas bd1 e bd2
  2. Temos um utilizador myuser com privilégios de CONNECT em bd1 e bd2 e outro utilizador mydba com privilégios de DBA na bd1
  3. O utilizador myuser necessita de, estando conectado à bd1, correr uma query distribuída à bd2
  4. O DBA da bd2 faz o GRANT dos privilégios necessários na bd2 ao utilizador myuser
Ora, sem o modo RESTRICTED dos procedimentos, o utilizador mydba poderia criar um procedimento na bd1, em nome do utilizador myuser e nesse procedimento poderia aceder à bd2 usando a identidade do myuser (que tem privilégios na bd2). Note-se que o DBA da bd2 não tencionava dar os privilégios a mais ninguém que não o myuser. Portanto um DBA local poderia usar os seus privilégios para usufruir de privilégios remotos dados a utilizadores da sua base de dados.
Esta foi a razão que levou à criação deste novo modo. Em termos práticos, um procedimento criado como RESTRICTED executa todas as operações remotas com a identidade do utilizador que a está a executar e não com a identidade do utilizador que está definido como dono (que pode ser diferente de quem a criou).

Outras implicações

Portanto, as razões para a introdução deste novo modo estão apresentadas e são boas razões. Mas podem existir outras implicações. De seguida irei referir um bug do produto, mas é altamente improvável que venha a encontrá-lo. Mas a correcção introduziu algumas alterações que são dignas de nota e que valerão a pena gastar algum tempo com elas.
Cada vez que fazemos uma conexão remota, dentro de uma instrução SQL, temos de abrir a base de dados remota. E necessitamos de manter um registo das bases de dados abertas em cada momento. A estrutura que mantém essa informação era um array de "apenas" 8 posições. E em determinadas situações poderíamos "dar a volta" sem despoletar um erro apropriado. E isto poderia dar origem a uma situação onde a base de dados "actual" não era a que deveria ser (devido à forma como eram abertas e fechadas as ligações durante a execução de uma instrução SQL). Deparei-me com isto num ambiente de um cliente onde começamos a obter o erro -674 (procedure not found) num procedimento despoletado por um trigger. Como é que isto se relaciona com o tema deste artigo? Porque o uso misto de procedimentos em modo RESTRICTED e OWNER potencia um maior número de bases de dados abertas em simultâneo (cada conexão tem um utilizador específico associado que conforme o modo pode ser o dono dos procedimentos ou o utilizador da sessão).
Não fique assustado com este problema. Para melhor enquadrar, na situação que encontrei existiam cerca de 60 objectos (tabelas e procedimentos) ligados por uma complexa teia de triggers e procedimentos (triggers que chamavam procedimentos que fazia INSERTs, UPDATEs e DELETEs, que por sua vez faziam disparar outros triggers e assim sucessivamente).
A sequência era despoletada por um simples INSERT e envolvia 5 bases de dados distintas. O array mencionado anteriormente tinha apenas 8 posições.
Isto levou a várias correcções e agora (11.50.xC9 e 11.70.xC3):
  1. O array foi incrementado para 32 posições
  2. Se alguma vez atingirmos este limite (espero sinceramente que não) um erro apropriado será retornado (-26600)
  3. A documentação foi melhorada (não mencionada qualquer limite, sendo que de momento ainda refere 8... Deve ser corrigido brevemente)