課題への回答。詳細編
the-casket-of-star.hatenablog.jp
この仕組をミドルウェアレベルで何を選定するのか、その選定の理由は? という課題に対しての回答がこちら。
apacheじゃなくてnginxを選んだのは、リクエストの処理の速さ。
ElasticSearchを選んだのはSolrよりも扱い易い。 kibana使いたいから
たぶんこれを参考にしたのかな 楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社
Sparkを使う意味は? =>リアルタイム処理はHadoopじゃ弱いから。 リアルタイム処理が必要なものはなに? =>大量のアクセスがあった時に稼働し続けるから。 fluentd から直接リアルタイムの分析をできたらいいな。 =>リアルタイムの分析はどんなサービスのために必要?
ElasticSearchを通さずにfluentdから直接sparkはダメなのか? =>直接でもよいです。用途によって両方に投げてもいい。
一番悩んだところは? WebからDBのところ。 flume + HBaseにするかなやんだ
所管 ElasticseasrchはNoSQLで、スケールし易いから選定したと言ったけれど データベースの選定方法が弱いなと思った。 CAP定理について話したので、その辺りを今日のブログでまとめてもらえるんだろうなと期待。