Bases de datos distribuídas: febrero 2015

domingo, 22 de febrero de 2015

Nota sobre la factoría de la información corporativa.

Data warehouse (DW).
Tipos de usuarios.

Granjero.

-Accede a información de forma predecible y repetitiva.

-Solo accede a su parcela de información: extrae datos para mejorar el funcionamiento de la empresa.

-Utiliza herramientas OLAP.

Explorador.

-Explora gran cantidad de datos.

-Accede a información de forma impredecible e irregular.

-Perfil informático estadístico.

-Objetivo: obtener información que proporcione ventaja competitiva.

Turista.

-Grupo de dos o mas personas.

-Un perfil con conocimientos de negocio y visión global de la empresa.

-Segundo perfil con conocimientos informáticos.

-Consulta datos y metadatos.

-Acceden sin ningún patrón de acceso.

-Las herramientas que utiliza suelen ser navegadores o exploradores.

-Sus resultados serán proyectos para los usuarios granjero y explorador.

¿Qué es un Data Warehouse?

Es una colección de datos orientados al tema, integrados, no-volátiles e historiados, organizados para dar soporte a los procesos de ayuda a la decisión.

Notas sobre Metadatos.

Metadatos.
¿Qué son?
-Los metadatos son datos sobre los datos. Son datos que: describen características de otros datos, y facilitan su administración y uso. Mantienen unidos los componentes de la FIC.

Descripción de las fuentes de datos.

Estructuras utilizadas para almacenar datos.
Número de registros almacenados.
Forma de almacenamiento.
Condiciones bajo las que se producen los datos.
Origen de los datos.

Descripción de los datos.

Las mismas que en el caso de la descripción de las fuentes de datos.

Información sobre uso de la información.

Frecuencia de actualización.
Estadísticas de uso.
Información de seguridad.

Sobre el origen de los datos.

Parecidas a las fuentes de datos.

Sobre la salida de datos.

Parecidas a las de los almacenes de datos.

Sobre la transformación de los datos.

Frecuencias.
Fórmulas de transformación.
Políticas de acceso.

Uso de metadatos:

El equipo de desarrollo de la FIC.
Los técnicos que mantienen al sistema.
Los usuarios finales.

Tipos de metadatos.

De construcción. Estructura de las fuentes de datos, de los almacenes de datos, transformaciones, planificación, semántica, etc.
De gestión. Usuarios permitidos y accesos, accesos realizados, resultados de las extracciones y transformaciones, etc.
De uso. Selección de metadatos de construcción y gestión.

Notas sobre Diseño multidimensional.

El sistema desicional no debe ayudar a vender, comprar, producir o transportar, sino evaluar, presupuestar, planificar, proyectar, etc.
¿Qué alternativas se pueden usar?

Excel es una de las herramientas de reporting y análisis de datos más utilizadas en BI.
Modelo tridimensional: hoja x fila x columna -> celda.
Muy útil para análisis de tipo what if.

Pero...

No son apropiados para grandes cantidades de datos.
No aportan semántica a los datos (la celdas se identifican por sus coordenadas).
La creación de informes es compleja.
No facilitan las jerarquías de agregación.

Se necesita un sistema híbrido que proporcione flexibilidad y potencia de cálculo y la facilidad de consulta de las bases de datos; éstas son las herramientas OLAP.

Herramientas OLAP.

Son herramientas con la capacidad de procesar consultas en línea con el objetivo de analizar datos que cumplan con las propiedades FASMI.
FAST, ANALYSIS, SHARED, INFORMATION.

Objetivos.

Que los usuarios no dependan del departamento de informática.
Que se puedan formular nuevas preguntas de forma dinámica.
Presentar los datos de manera que los analistas están acostumbrados a verlos.

jueves, 19 de febrero de 2015

Actividad 8

Características de BDD modelo cliente/servidor.

Características funcionales

Esta arquitectura se puede clasificar en cinco niveles, según las funciones que asumen el cliente y el servidor, tal y como se puede ver en el siguiente diagrama:

1.- En el primer nivel el cliente asume parte de las funciones de presentación de la aplicación, ya que siguen existiendo programas en el servidor dedicados a esta tarea. Dicha distribución se realiza mediante el uso de productos para el "maquillaje" de las pantallas del mainframe. Esta técnica no exige el cambio en las aplicaciones orientadas a terminales, pero dificulta su mantenimiento. Además, el servidor ejecuta todos los procesos y almacena la totalidad de los datos. En este caso se dice que hay una presentación distribuida o embellecimiento.

2.- En el segundo nivel la aplicación está soportada directamente por el servidor, excepto la presentación que es totalmente remota y reside en el cliente. Los terminales del cliente soportan la captura de datos, incluyendo una validación parcial de los mismos y una presentación de las consultas. En este caso se dice que hay una presentación remota.

3.- En el tercer nivel la lógica de los procesos se divide entre los distintos componentes del cliente y del servidor. El diseñador de la aplicación debe definir los servicios y las interfaces del sistema de información de forma que los papeles de cliente y servidor sean intercambiables, excepto en el control de los datos que es responsabilidad exclusiva del servidor. En este tipo de situaciones se dice que hay un proceso distribuido o cooperativo.

4.- En el cuarto nivel el cliente realiza tanto las funciones de presentación como los procesos. Por su parte, el servidor almacena y gestiona los datos que permanecen en una base de datos centralizada. En esta situación se dice que hay una gestión de datos remota.

5.- En el quinto y último nivel, el reparto de tareas es como en el anterior y además el gestor de base de datos divide sus componentes entre el cliente y el servidor. Las interfaces entre ambos están dentro de las funciones del gestor de datos y, por lo tanto, no tienen impacto en el desarrollo de las aplicaciones. En este nivel se da lo que se conoce como bases de datos distribuidas.

Características físicas

El diagrama del punto anterior da una idea de la estructura física de conexión entre las distintas partes que componen una arquitectura cliente / servidor. La idea principal consiste en aprovechar la potencia de los ordenadores personales para realizar sobre todo los servicios de presentación y, según el nivel, algunos procesos o incluso algún acceso a datos locales. De esta forma se descarga al servidor de ciertas tareas para que pueda realizar otras más rápidamente.

También existe una plataforma de servidores que sustituye al ordenador central tradicional y que da servicio a los clientes autorizados. Incluso a veces el antiguo ordenador central se integra en dicha plataforma como un servidor más. Estos servidores suelen estar especializados por funciones (seguridad, cálculo, bases de datos, comunicaciones, etc.), aunque, dependiendo de las dimensiones de la instalación se pueden reunir en un servidor una o varias de estas funciones.

Características lógicas

Una de las principales aportaciones de esta arquitectura a los sistemas de información es la interfaz gráfica de usuario. Gracias a ella se dispone de un manejo más fácil e intuitivo de las aplicaciones mediante el uso de un dispositivo tipo ratón. En esta arquitectura los datos se presentan, editan y validan en la parte de la aplicación cliente.

En cuanto a los datos, cabe señalar que en la arquitectura cliente/servidor se evitan las duplicidades (copias y comparaciones de datos), teniendo siempre una imagen única y correcta de los mismos disponible en línea para su uso inmediato.

Todo esto tiene como fin que el usuario de un sistema de información soportado por una arquitectura cliente/servidor trabaje desde su estación de trabajo con distintos datos y aplicaciones, sin importarle dónde están o dónde se ejecuta cada uno de ellos.

http://www.monografias.com/trabajos81/las-bases-de-datos/las-bases-de-datos2.shtml#ixzz3SFspOgk3

Principales Diferencias con los Archivos Convencionales

El Archivo por sí mismo no constituye una Base de Datos, sino más bien la forma en que está organizada la información es la que da origen a la Base de Datos.

Las Bases de Datos manuales, pueden ser difíciles de gestionar y modificar.

Por ejemplo: En una guía de teléfonos no es posible encontrar el número de un individuo si no sabemos su apellido, aunque conozcamos su domicilio.

Del mismo modo, en un Archivo de pacientes en el que la información esté desordenada por el nombre de los mismos, será una tarea bastante engorrosa encontrar todos los pacientes que viven en una zona determinada.

No podemos comparar directamente Base de Datos con Archivos, porque para ello es necesario tener más de un Archivo, pero si esto es así entraríamos en los problemas de: redundancia de datos, inconsistencia de datos, heterogeneidad de formatos de datos, no podemos compartir datos de las distintas aplicaciones, no manejamos la seguridad de todos losArchivos y por último ante pequeñas modificaciones en la estructura de los datos se requiere de muchas horas de programación para adecuar las mismas.

Los problemas expuestos anteriormente se pueden resolver creando un Sistemas de Gestión de Bases de Datos (SGBD), DBMS (Data Base Management System).

http://www.dataprix.com/23-principales-diferencias-archivos-convencionales

lunes, 9 de febrero de 2015

Actividad 7.

Arquitectura de bases de datos distribuidas.

La arquitectura define la estructura. Al definir la arquitectura se deben identificar las componentes de un sistema, las funciones que realiza cada una de las componentes y las interrelaciones e interacciones entre cada componente.

Desde el punto de vista de las bases de datos, conceptualmente existen tres tipos de ambientes que se integran con múltiples procesadores:

1. Arquitecturas de memoria compartida. Consisten de diversos procesadores los cuales accedan una misma memoria y una misma unidad de almacenamiento (uno o varios discos).

2. 2. Arquitecturas de disco compartido. Consiste de diversos procesadores cada uno de ellos con su memoria local pero compartiendo una misma unidad de almacenamiento (uno o varios discos).

3. Arquitecturas nada compartido. Consiste de diversos procesadores cada uno con su propia memoria y su propia unidad de almacenamiento.

Ventajas.

1. El acceso a los datos es más rápido debido a que los datos se localizan más cercanos al lugar donde se utilizan.

2. El procesamiento es rápido debido a que varios nodos intervienen en el procesamiento de una carga de trabajo,

3. Nuevos nodos se pueden agregar fácil y rápidamente.

4. La probabilidad de que una falla en un solo nodo afecte al sistema es baja y existe una autonomía e independencia entre los nodos.

5. Control local de los datos con que se interactúa.

6. Mayor tolerancia a los fallos

Desventajas.

1. Es más complicado el control y la manipulación de los datos

2. Es compleja el aseguramiento de la integridad de la información en presencia de fallas no predecibles tanto de componentes de hardware como de software. La integridad se refiere a la consistencia, validez y exactitud de la información.

3. El control de concurrencia y los mecanismos de recuperación son mucho más complejos que en un sistema centralizado dado que los datos pueden estar replicados.

Lugares donde se utilizan las bases de datos distribuidas.

1. Instituciones educativas.

Es una base de datos estructurada que permite organizar documentos, información personal, trámites institucionales, becas, calificaciones semestrales mediante la red institucional.

2. Empresas automotrices.

Base de datos que se encarga de llevar un conteo de cuantos automóviles llegan a las empresas y cuantos automóviles salen en venta, también de los ingresos, gastos y ganancias que estos generan.

3. Centro comercial.

Utiliza una base de datos que administra y ofrece mercancía a todos sus consumidores a un bajo costo, esta lleva una base de datos mediante toda su mercancía como productos de belleza, comida rápida, etc.

4. Banco.

Utiliza una base de datos para las transacciones y retiro de dinero, usuarios que poseen una cuenta de débito o crédito.

5. Hotel.

Utiliza una base de datos para saber cuántos turistas o visitantes se registran y ocupan las habitaciones del hotel.

6. Clínicas.

Lleva una base de datos con un registro personal de cada paciente que en el se incluyen todo su historial médico.

7. Penales federales.

Emplea una base de datos con los expedientes de cada uno de los presos, y ésta se encarga de llevar un control total de la información.

8. Sindicatos laborales.

La base de datos lleva el control de las plazas de cada personal y cual es el empleo.

9. Registro civil.

Utiliza una base de datos para el registro de la natalidad, matrimonios, divorcios, etc.

10. Tiendas de abarrotes.

Esta emplea una base de datos para el registro de la mercancía, gatos y ganancias.

http://fannycruzsuarez.blogspot.mx/2013/02/10-lugares-donde-se-utiliza-base-de.html

viernes, 6 de febrero de 2015

Actividad 6.

Uso de las bases de datos distribuidas.

Para cualquier organización que está operando en el sector productivo de un país, es indispensable contar con medios para el control de la información, ya que de ello depende en gran medida que se lleguen a tomar decisiones en momentos de crisis económica o problemas legales. Desde su aparición en los años 80's, las bases de datos han sido mejoradas con el paso de los años, ya que las primeras aplicaciones eran sistemas de archivos.
Los ambientes en los que se encuentra con mayor frecuencia el uso de las bases de datos distribuidas son:

Cualquier organización que tiene una estructura descentralizada.
Organismos gubernamentales y/o de servicio público.
La industria de la manufactura con plantas múltiples.
Aplicaciones de control y comando militar.
Líneas de transportación aérea.
Cadenas hoteleras.
Servicios bancarios y financieros.

Fuentes de información:

http://delaoarrieta.blogspot.mx/2012/09/uso-de-las-bdd-en-diversos-sectores.html

http://martinezprosperobdd.blogspot.mx/2012/09/bases-de-datos-distribuidas-en-sectores.html

Transparencia de BDD.

Es esencial que el sistema reduzca al mínimo la necesidad de que el usuario se dé cuenta de cómo está almacenada una relación. Un sistema puede ocultar los detalles de la distribución de la información en la red. Esto se denomina transparencia de la red. La transparencia de la red se relaciona a la autonomía local. La transparencia de la red es el grado hasta el cual los usuarios del sistema pueden ignorar los detalles del diseño distribuido. La autonomía local es el grado hasta el cual el diseñador o administrador de una localidad pueden ser independientes del resto del sistema distribuido.

Transparencia de la repetición.

No es conveniente que los usuarios hagan referencia a una copia específica de un elemento de información. El sistema debe ser el que determina a qué copia debe acceder cuando se solicite su lectura, y debe modificar todas las copias cuando se produzca una petición de escritura. Cuando se solicita un dato, no es necesario especificar la copia. El sistema utiliza una tabla-catálogo para determinar cuales son todas las copias de ese dato.

Transparencia de localización.

Si el sistema es transparente en cuanto a repetición y fragmentación, se ocultará al usuario gran parte del esquema de base de datos distribuida. Sin embargo, el componente de nombres que identifican a la localidad obliga al usuario a darse cuenta del hecho de que el sistema está distribuido.

Transparencia y actualizaciones.

De alguna forma es mas difícil hacer transparente la base de datos para usarlos que la actualizan que para aquellos que sólo lean los datos. El problema principal es asegurarse de que se actualizan todas las copias de un dato y también los fragmentos afectados.

Fragmentación.

Hay dos tipos: la división horizontal y la división vertical. La fragmentación horizontal trabaja sobre tuplas, dividiendo la relación en subrelaciones que contienen un subconjunto de las tuplas que alberga la primera. Existen dos variantes de la fragmentación : la primaria y la derivada. La primaria se desarrolla empleando los predicados definidos en esa relación. La derivada consiste en dividir una relación partiendo de los predicados definidos sobre alguna otra. La fragmentación vertical se basa en los atributos de la relación para efectuar la división. Su objetivo consiste dividir la relación en un conjunto de relaciones pequeñas tal que algunas aplicaciones de usuario solo hagan uso de un fragmento.

Fuentes de información:

http://basesdatosdistribuidas.blogspot.mx/2012/09/investigacion-bdd-transparencia.html

http://www.scribd.com/doc/26894720/Base-de-datos-Distribuidas

http://www.tamps.cinvestav.mx/~vjsosa/clases/sd/sistemas_distribuidos_panorama.pdf

jueves, 5 de febrero de 2015

Actividad 5.

Arquitectura centralizada.

La computación centralizada es cuando el proceso de cómputo es realizado en una localización central, usando terminales conectados a una computadora central. La computadora en sí misma puede controlar todos los periféricos directamente, o pueden ser conectados vía servidor de terminal.

Características de las bases de datos centralizadas:

Se almacena completamente en una localidad central.
No posee múltiples elementos de procesamiento ni mecanismos de intercomunicación como las bases de datos distribuidas.
Los componentes de las bases de datos centralizadas son: los datos, el software de gestión de bases de datos y los dispositivos de almacenamiento secundario asociados.
El problema de seguridad es fácil de manejar en estos sistemas de bases de datos.

Arquitectura cliente/servidor.

Un sistema cliente/servidor es aquel en el que uno o más clientes y uno o más servidores, conjuntamente con un sistema operativo subyacente de comunicación entre procesos, forma un sistema compuesto que permita cómputo distribuido, análisis, y presentación de los datos. Si existen múltiples servidores de procesamiento de bases de datos, cada uno de ellos deberá procesar una base de datos distinta, para que el sistema sea considerado un sistema cliente/servidor. Cuando dos servidores procesan la misma base de datos, el sistema ya no se llama un sistema cliente/servidor, sino que se trata de un sistema de base de datos distribuido.

Los clientes, a través de la red, pueden realizar consultas al servidor. El servidor tiene el control sobre los datos; sin embargo los clientes pueden tener datos privados que residen en sus computadoras. Las principales características de la arquitectura cliente/servidor son:

El servidor presenta a todos sus clientes una interfaz única y bien definida.
El cliente no necesita conocer la lógica del servidor, sólo su interfaz externa.
El cliente no depende de la ubicación física del servidor, ni del tipo de equipo físico en el que se encuentra, ni de su sistema operativo.
Los cambios en el servidor implican pocos o ningún cambio en el cliente.

Arquitectura de base de datos distribuidas.

Consiste en un conjunto de computadores, que están interconectadas entre sí, formando una red, y que cooperan para realizar una determinada tarea. Un sistema de computación distribuida parte de un problema grande en pequeñas piezas, y soluciona cada una de ellas eficientemente de una manera coordinada.

Los usuarios acceden a la base de datos distribuida a través de aplicaciones. Estas aplicaciones se pueden clasificar en aquellas que no requieren datos de otros computadores y aquellas que requieren datos de otros computadores. Un SGBDD tiene las siguientes características:

· Una colección de datos compartidos y relacionados lógicamente.

· Los datos están divididos en fragmentos.

· Los fragmentos se pueden duplicar.

· Los fragmentos se colocan en varios emplazamientos (computadores).

· Dichos emplazamientos están conectados por una red.

· Los datos de cada emplazamiento están bajo el control de un SGBD.

· El SGBD en cada emplazamiento puede manejar aplicaciones locales autónomamente.

· Cada SGBD participa en al menos una aplicación global.

martes, 3 de febrero de 2015

Actividad 4

Bases de datos centralizados.

Es una base de datos almacenada en su totalidad en un solo lugar físico, es decir, es una base de datos almacenada en una sola máquina y una sola CPU, en donde los usuarios trabajan en terminales que sólo muestran resultados. Son aquellos que se ejecutan en un único sistema informático sin interaccionar con ninguna otra computadora.

Características de las bases de datos centralizadas.

· Se almacena completamente en una localidad central, es decir, todos los componentes del sistema residen en un solo computador o sitio.

· No posee múltiples elementos de procesamiento ni mecanismos de intercomunicación como las Bases de Datos Distribuidas.

· Los componentes de las Bases de Datos Centralizadas son los datos, el software del SGBD (Sistema de Gestión de Base de Datos) y los dispositivos de almacenamiento secundario asociados, como disco de almacenamiento en línea de la base de datos y cintas para las copias de seguridad.

· El problema de seguridad es inherentemente fácil en estos sistemas de bases de datos.

Bases de datos distribuidas.

Es una colección de datos que pertenecen lógicamente a un solo sistema, pero se encuentra físicamente esparcido en varios sitios de la red. Un sistema de base de datos distribuidas se compone de un conjunto de sitios, conectados entre sí mediante algún tipo de red de comunicaciones, en el cual:

· Cada sitio es un sistema de base de datos en sí mismo.

· Los sitios trabajan en conjunto si es necesario con el fin de que un usuario de cualquier sitio pueda obtener acceso a los datos de cualquier punto de la red tal como si todos los datos estuvieras almacenados en el sitio propio del usuario.

Objetivos de las bases de datos distribuidas.

Es una especia de un objeto virtual, cuyos componentes se almacenan físicamente en varias bases de datos reales distintas, ubicadas en diferentes sitios. Un usuario puede realizar operaciones sobre los datos en su propio sitio local exactamente como si ese sitio no participara en absoluto en el sistema distribuido.

Sistema de gestión de base de datos distribuidas (SGBDD).

Es necesaria la aplicación que actué de interfaz entre el usuario, los modelos y el sistema físico. Esta es la función que desempeñan los SGBD. Una base de datos permite al usuario acceder a los datos almacenados sin que él deba saber cómo están organizados esos datos en el sistema, garantiza que ningún usuario sin autorización pueda ver o manipular los datos.