¿Se puede mejorar?

“Me encantaría volver a hacer cada uno de los proyectos que he hecho, y darles una segunda vuelta, porque siempre se puede ir un poco más allá. Y si no puedes ir más allá significa que no has aprendido de lo que has hecho y no estas atento. Entonces es mejor parar y dedicarse a otra cosa.”

— Norman Foster

 

Tabla Hive: fuente CSV con comillas

CREATE TABLE my_table(a string, b string, ...)

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'

WITH SERDEPROPERTIES (

   "separatorChar" = "\t",

   "quoteChar"     = "'",

   "escapeChar"    = "\\"

)  

STORED AS TEXTFILE;

 

Referencias:

https://cwiki.apache.org/confluence/display/Hive/CSV+Serde

flume con dos usuarios

Se puede configurar flume para que use dos usuarios diferentes, uno para kafka y otro para zookeeper que, en consecuencia, sirve para SOLR.

Esta configuración de jaas es muy útil para ese caso:

KafkaClient {
        com.sun.security.auth.module.Krb5LoginModule required
        keyTab="/home/$USER/$USER.keytab"
        useTicketCache=false
        principal="$USER@DOMAIN.ES"
        useKeyTab=true
        serviceName="kafka";
};


Client {
        com.sun.security.auth.module.Krb5LoginModule required
        keyTab="/home/azeotropes/zkuser.keytab"
        useTicketCache=false
        principal="zkuser@DOMAIN.ES"
        useKeyTab=true
        serviceName="zookeeper";
};

At home

It is not necessary that you leave the house. Remain at your table and listen. Do not even listen, only wait. Do not even wait, be wholly still and alone. The world will present itself to you for its unmasking, it can do no other, in ecstasy it will writhe at your feet.

— Franz Kafka

Libro: Bayesian Data Analysis

Página de Andrew Gelman sobre el libro

Libro en pdf (disponible para descargar para uso no comercial)