何でもありの備忘録
by takahiro_komiya
S M T W T F S
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
カテゴリ
以前の記事
2018年 07月
2018年 06月
2018年 05月
2018年 04月
2018年 03月
2018年 02月
2017年 11月
2017年 10月
2017年 09月
2017年 08月
2017年 07月
2017年 06月
2017年 05月
2017年 04月
2017年 03月
2017年 02月
2017年 01月
2016年 12月
2016年 11月
2016年 10月
2016年 09月
2016年 08月
2016年 07月
2016年 06月
2016年 05月
2016年 04月
2016年 03月
2016年 02月
2016年 01月
2015年 12月
2015年 11月
2015年 10月
2015年 09月
2015年 08月
2015年 07月
2015年 06月
2015年 05月
2015年 04月
2015年 03月
2015年 02月
2015年 01月
2014年 12月
2014年 11月
2014年 10月
2014年 09月
2014年 08月
2014年 07月
2014年 06月
2014年 05月
2014年 04月
2014年 03月
2014年 02月
2014年 01月
2013年 12月
2013年 11月
2013年 10月
2013年 09月
2013年 08月
2013年 07月
2013年 06月
2013年 05月
2013年 04月
2013年 03月
2013年 02月
2013年 01月
2012年 12月
2012年 11月
2012年 10月
2012年 09月
2012年 08月
2012年 07月
2012年 06月
2012年 05月
2012年 04月
2012年 03月
2012年 02月
2012年 01月
2011年 12月
2011年 11月
2011年 10月
2011年 09月
2011年 08月
2011年 07月
2011年 06月
2011年 05月
2011年 04月
2011年 03月
2011年 02月
2011年 01月
2010年 12月
2010年 11月
2010年 10月
2010年 09月
2010年 08月
2010年 07月
2010年 06月
2010年 05月
2010年 04月
2010年 03月
2010年 02月
2010年 01月
2009年 12月
2009年 11月
2009年 10月
2009年 09月
2009年 08月
2009年 07月
2009年 06月
2009年 05月
2009年 04月
2009年 03月
2009年 02月
2009年 01月
2008年 12月
2008年 11月
2008年 10月
2008年 09月
2008年 08月
2008年 07月
2008年 06月
2008年 05月
2008年 04月
2008年 03月
2008年 02月
2008年 01月
2007年 12月
2007年 11月
2007年 10月
2007年 09月
2007年 08月
2007年 07月
2007年 06月
2007年 05月
2007年 04月
2007年 03月
2007年 02月
2007年 01月
2006年 12月
2006年 11月
2006年 10月
2006年 09月
2006年 08月
2006年 07月
2006年 06月
2006年 05月
2006年 04月
2006年 03月
2006年 02月
2006年 01月
2005年 12月
2005年 11月
2005年 10月
2005年 09月
2005年 08月
2005年 07月
2005年 06月
2005年 05月
2005年 04月
2005年 02月
2005年 01月
2004年 12月
2004年 11月
タグ:stream computing ( 9 ) タグの人気記事
KSQL
Stream computing については最近アップデートしてないな。こんな記事がでている。

InfoSphere Stream みたいな感じかな?ここを見ると、

CREATE TABLE error_counts AS
SELECT error_code, count(*)
FROM monitoring_stream
WINDOW TUMBLING (SIZE 1 MINUTE)
WHERE type = 'ERROR'

なんで、 size 1 minute のところが window値みたい。CQLみたいな感じ。




by Takahiro_Komiya | 2017-09-05 12:30 | その他 technology
Google Cloud DataFlow API
IBM の Streams ネタはよく書くが、最近多く聞くのは Spark な感じ。でもって、こんな物が出ている。

Easily run Dataflow Big Data pipelines anywhere, thanks to Cloudera

ーDirect Pipeline
ーGoogle Cloud DataFlow
ーSpark (cloudera)

詳細はたどって欲しい。

#結構なんでもできそう
by Takahiro_Komiya | 2015-01-21 11:08 | その他 technology
Google Cloud Dataflow service
こんなことを書いたのは2011年か。Amazon Kinesis などにつづいて Google からもついに発表

Cloud ベース(当然 multi-tenant)でのデータフロープロセッシング(ストリーム処理)だ。

b0068870_9193267.png



##ちょいと既視感(笑)


#20140627
ここにも書いてあるけど MillWheel とやらの情報はこちら
by Takahiro_Komiya | 2014-06-26 09:23 | その他 technology
Stream Computing 解説プレゼン
Stream Computing は SPL(Stream Processing Language) と time window(sliding window)を持った特殊な形態の In-Memory DB とから構成されるコンピューティングアーキテクチャだというのがこのblogでも書いている話。

Hadoopなどのハードウェアリソースに対して処理を分散する並列度を生かした分散処理フレームワークと異なり、個々のストリームの処理を各イタレーションに分解し、リアルタイムに処理するためのフレームワークである。

b0068870_1712846.png


で、こいつのわかりやすい説明資料を発見したので、ぜひ読んでほしいものである。
by Takahiro_Komiya | 2014-06-17 17:02 | その他 technology
GridGain
http://www.gridgain.com/

http://gridgain.blogspot.jp/
by Takahiro_Komiya | 2014-05-20 14:29 | その他 technology
Apache Spark
これは分かりやすい。


Spark API に関してはこちら

IBM InfoSphere Streams の SPL APIについてはこちら
by Takahiro_Komiya | 2014-05-09 14:39 | その他 technology
Big Stream, Big System, Big Data
こんな話をやりだして2年にもなるが、最近になってこんな話をするようになってきた。ストレージ+フォーラムで話した内容はテクノロジトレンドセミナの抜粋なので、聞きたい方はトレンドセミナの方に、ぜひ。

背景は、Yahoo Japan!さんの事例ITSの話などがあるから。

やりたいことは上記のセミナーで話しているのでそちらに来てもらうとして、技術的には Realtime + BIGDATA の話。個人的にはこの絵は怖いので使わないけど(プロビデンスの目っぽいし)、基盤としてはまさにこれ。

なぜ今これをいうのかというと、Amazon Kinesis/Amazon RedshiftIBMの話やCiscoの IoE/Fog な話があったりするので、今が声を大きく言う時かなと思ったわけで。

結局は messaging, ETL などで、低遅延広帯域なリソースエリアネットワークが必要というつながりです。

その他の技術は Intel におまかせか。
by Takahiro_Komiya | 2014-04-22 17:38 | その他 technology
ビッグデータだけが全てではない
流行りというものであるし、ソレに乗っている自分でもあるのではあるが、「ビッグデータ」というキーワードだけが今のシステムの問題ではない。私がファブリックについて話をする時にわざわざ「リアルタイム処理」と「ビッグデータ」を別々に話をしているのには意味がある。ビッグデータをリアルタイム処理しましょうということではない(そうであってもいいけど、それは単なる一面的な見方)。

よく使われるビッグデータのコンテクストは、「膨大なデータから価値のある何かを発見しましょう。だけど量が膨大だから処理が大変なの!」という流れ。そういうレベルで言えば13年前の ALADIN2 だって物理40TBを超える規模があったし、今時 Petabyte 規模でもそんなに不思議ではない。技術的にはカラム指向DBだが、ETLなどに工夫が見られる。高速化するにはボトルネックである回転体を半導体に置き換えるのが一番早い。そうすれば in-memory DB 技術(パーティショニングなどの設計がもっと大事だけど)と同時に利用することで、100倍高速化するのも夢ではない。

さて、これだけで課題は解決しないということはどういうことだ??というと、下記のような例があるからだ。

株価情報において、直近5分間の すべての株価の平均値を常に提供し続けるという簡単なサービスを作るとしよう。さて、RDBMSで実装するとどうなるか?全ての株価情報はRDBMSに入っている。「直近5分の価格の平均」というカラム指向情報を「すべての銘柄」でリアルタイム計算するにはどんな select 文をかいたらよいか?分かる人はわかる。これがストリーム処理のアダプティブクエリだ。

なんでこんなことをいうのかというと、意外と認識されていないからだ。1000台のサーバを管理していたとしよう。各サーバのエージェントがイベント情報をイベントサーバに上げてくる。その中に障害情報が入っていたとする。もし、バッチ処理で障害を抜き出していると、一日一回のレポート生成用バッチが動くまで障害がわからない。実際はそれでは困るということで、非同期メッセージング(SNMP Trap のこと)で通知することでわかるというわけだ。Verdasysのようなセキュリティ製品でも Event DB からフォレンジック DB に transform するのは多くて一日数回(ソレ以上してもバッチが終わらない)だ。だから緊急な Event については Agent がルールに基づきユーザに通知する。

こんな感じでバッチの話(狭い意味のビッグデータ)とリアルタイム処理(学術的にはストリームコンピューティング)とは別なものだ。どっちも注目しなければならない技術だ。


#どんなに遅くて困ってもファブリックがあれば大丈夫 (もちろん Original は広瀬香美)
by Takahiro_Komiya | 2012-01-13 01:06 | その他 technology
Stream Computing
なにやらある話が本格的になりそうな予感なので、ちょっとメモ。

IBM Redbooks InfoSphere Streams

InfoSphere Whitepaper

Watson は InfoSphere Streams が使用されているのね



最初の「スカイネット」は InfoSphere Streams かもしれない(笑)
by Takahiro_Komiya | 2011-12-05 14:21 | その他 technology