2014-05-18
いっぱいのデータ
†††
リピと呼んでくれ。イシュマエルじゃないし、断じてハイブでもない。バイブでもないからな。
おれはイケメンエンジニアなのだが、最近、仕事でビッグデータ案件が多い。そうそう、ビジネス誌を湧かせているアレだ。まず俺は言いたい。ビッグデータって英語だから何か聞こえがいいが、日本語に直訳すると「いっぱいのデータ」だ。これ絶対ダサいだろ。英語がさして得意なわけでもない我々日本人はまだしも、母語で叫びまくってるアメリカ人とか超絶センスがないと思う。それとも英語だとかっこよく聞こえんだろうか?
まあいいや。今日の訪問先はなんか小売店だそうだ。おっと、ビッグデータにならって英語で言い直してみるか。リテールカンパニーってやつだ。なんか提案書を見る限り、小売の現場で出てくるビッグなデータを分析して…みたいなノリだ。そんなにうまく行くのかね。でもって会社の名前は…「Comme De Morrison」か。これなんて読むんだ?混むでモリソン?こいつ集客力に自信ありまくりだな。
しかし遠いな。コムデモリソンさん、南大沢かよ。南大沢とかマジでいい思い出ないんだよねーなんか2年前くらいに頭から水をかけられた変なレストランが…
ん!?おいおい、コムデモリソン、あのマジファックなレストランの跡地か。あーまじテンション下がるわー。まあでも仕事だからな。行くしかない。誰かさんのブログにならってGo Ahead!
∞
しかしコムデモリソン洒落てんなぁ。打ちっぱなしのコンクリートの建物にガラス張りの店構え、ガラスに黒のオサレなタイプフェースで「Comme De Morrison」か。これ南青山スペックだろ。何こんな洒落た店を南大沢に作ってんだよ。南違いにも程があるだろ。EC2のc1.xlargeで個人ブログをホストするくらいスペックの浪費だぞ。
そして肝心の商売の方は…ほらやっぱり店内ほとんど誰もいない。こんな前衛的なファサードで入りづらいってんだよ。あ、キモいジ―ジャン着た店員がこっち来るな。なんかスキップしてくる。
—よ、う、こ、そーコムデモリソンへ!
—あ、どうも。○○の…あーお前!
—あー。お前たしか…
—リピだよ。お前こそ何やってんだよ。ビストロのウェイターやってたはずだろ。それこそこの同じ場所で
—そうだ、よく覚えているな
—あんなトラウマになるレストラン忘れるか
—あれは別にレストランのせいじゃないだろ
—レストランのせいではないが、お前のせいだな。てかお前なまえなんだっけ?
—クイップトだ
—ちげーよ。それはこのブログだよ
—リピだ
—それは俺の名前だよ
—['も', 'り', 'す']
—そうだ、モリスだ
—ドットジョイン!
—相変わらずお前意味不明だな。ビストロはどうした?
—見りゃわかるだろ、廃業だ
—シェフはどうした
—むしろシェフが旅立ってしまったから廃業にすることにした
—旅立った?
—なんかフランス料理には飽きたそうだ。これからはジンジャーエールを極めるらしい
—急に守備範囲が狭まったな、シェフ。お前は晴れてクビか
—クビというか…俺がサドユキシェフの後を継ぐのは無理があるからな。せっかくスペースはあるし、改装してブティックをやることにした
—ブティックかよ。あんたそんなにファッションセンスあるか?
—どうだろうな。それ相応に客は来る。最近はぞうさんシリーズが特に人気だ。ほら、おれも今着ているコレなんかがそうだ
モリスがインディゴのジャケットのジッパーを下すと、薄ら笑いを浮かべた黄色い象のイラストがニョッと顔を出した。薄ら笑う象の目には1ナノグラムの可愛さもなく、ただひたすらおぞましい。俺は反射的に仰け反った。これなかなか人気なんだよなぁと微笑むモリスの目すら象のそれに見えてきてしまう。
—お前もほしいだろ、このシャツ
—敢えて言おう、ノーであると
—強がるなって。今ならセールだからコレだ
モリスは人差し指を立てる。
—1000円?
—んなわけねーだろ。コムデモリソンのヒットデザインだぞ。1万円だ
—たけーな!普段いくらで売ってんだよ
—10,500円だ
—お前セールって言っただろ。
—セールだよ。元々は10,000円だったんだけどな、消費税増税に伴い、ちょっと値上げした。
—てかお前ヒット商品だったら店頭におけよ
—たしかにー
—冗談だよ。こんなキモいプリントが入ったTシャツが店頭に並んでたら、客が店に入ってこねえよ
—そうなんだよ、客足が伸びてないんだよ、そこでビッグデータだ
なんか会話がずれている気もするが、そもそもこの店に来た理由をやっと思い出した。コムデモリソンは客なのだ。
—お前ビッグデータが何かわかってんのかよ
—わかってるよ
—じゃあ説明して
—お前それが客に対する態度かよー
—お前が知ってるって言ったんだろうが
—コムデモリソンを軌道に乗せてくれる何か、だ
—軌道に乗ってないのか
—うん、ぶっちゃけ
俺はもう嫌な予感しかしなかったので、とっとと帰ることにした。踵を返す俺を、モリスは慌てて呼び止める。
—まあ待て。こんなことだろうと、リアルなビッグデータのプロも呼んである
おれは無視して歩き続ける。
—単なるビッグデータの専門家じゃないぞ!dokurojinさんだぞ!
なーんと。まさかdoryokujinとは。超有名データサイエンティストじゃないか。興味本位だけどちょっとだけ残ることにした。
—しかしそんな有名人、よく捕まえたな
—最初は出渋ったんだが、生データ触れますよ、象さんTシャツもあげますよって言ったら食いついてきた
—へえ。今どちらにいらっしゃるんだ、ご当人は
—裏でなんか分析してる
—なんと。紹介してよ
—もちろん、もちろん。これから一緒に働いてもらうからな。
キャッシャー代わりのiPadの横から店の奥に入ると、なんか呻き声に似た声が聞こえてきた。
誰やねん、イマド…Shift-JIS…死んでま…
薄暗い部屋の奥の方に、ずいぶん大柄な後ろ姿が、そのさらに奥のラップトップの画面の明かりに照らされている。
—dokurojinさーん。連れてきましたよー凄腕のエンジニアを!
すると広い肩幅の上にちょこっと乗ったおかっぱ頭が振り向いた。
—だから今データ掃除中って言ってますやん…ってこの人だれです?
—こいつはリピっていうエンジニア
—「こいつ」とか言うな。はじめましてリピです
—ああリピさんね。知っとるわ。つけ麺の。ぼくは…
—doryokujinさんでしょ。知ってますよー
—はい、髑髏人です
—え、努力人さんですよね
—いえ、よく間違われんねんけど、ぼくはドクロジンやで。ほらトレードマークはこの胸のドクロマーク
といってTシャツの胸部を左手でつまんでいる。そこにはさっきの象さんが骸骨化したと思われるイラストが描いてある。これかな、モリスが言ってたTシャツって。
—おいモリス、お前doryokujinがいる言うたやんけ
—おれはちゃんとdokurojinだと言ったぞ。お前の耳が悪いんだ
—やっぱりおれ帰る
—まあまあそういうな。dokurojinさんも立派なデータサイエンティストだ
—いいえ、ぼくはデータマエショリストです
—なんだよマエショリストって?ほらモリス、こいつもお前と一緒でいちいち胡散臭いんだよ
—失礼ですけど、あんた前処理なめとるやろ!?痛い目にあうでー
なんかドクロマン、変なとこでキレやがるな。あーめんどくせ。
—皆さんデータサイエンティストとか言いますけどね、サイエンスに行く前にやることがあるでしょう。そうです、準備ですよ。普通のサイエンスだってちゃんとした準備があってこそ始めて仮説が検証できる。データサイエンスも一緒です。生データというのはですね、とにかく汚い。それを精査して実際に分析できるところまで持っていく、これをデータの前処理といいます。私も含め多くのデータサイエンティストと呼ばれる方々はこの前処理に日々苦心しておるのですよ
—はぁ
—リピさんでしたっけ。あなたもビッグデータ業界におられるようですがね、ビッグデータの三つのVってご存知ですか
—そんくらい知ってますよ。Volume, Velocity, Variety。日本語でいうと容量、速度、種類。この3つに於いて過去に類を見ないスケールなのがビッグデータって話でしょ。いかにもマーケ的な…
—ちゃうわ!
—え、違うんすか?
—そんなもんは都合のよいマーケ的なスローガンですわ
—じゃあ3つのVってなんですの
—ボロクソ・バラバラ・場当たり。この3つですわ
—それだと3つのBでしょ
—じゃあヴォロクソ・ヴァラバラ・ヴァ当たりっでことで
—無理やりVにすんなよ…
—とにかくですよ!
盛大にツッコまれても動じないこのマエショリストには一種の畏怖さえ感じる。これもあのTシャツの魔力なんだろう。
まずは「ボロクソ」ですけど、これはデータがボロクソ、ってことです。よくこれからはビッグデータを溜めなきゃいけないみたいな話がありますが、厳密に言えば、今までも結構皆さん溜めてらっしゃってますよ。問題はどういう形式で溜められているかってことです。これがひどい。もうほんとヒドい。文字エンコーディングもわけわからんものが多いし、CSVだというんで標準ライブラリのCSVリーダに噛ませるとエラーを吐きまくったりとかですね。まぁデータの保存形式からしてボロクソなわけです。
データの保存形式だけならまだいい。ようやっとデータを整形して中身をみると、データそのものが間違っている場合が結構あるのです。まるであのストップ細胞やらと一緒です。あれは間違ったデータを前処理し過ぎてしまった例ですが。それこそこのモリソンさんのデータとかおかしいですよ。なんすかこのクソTシャツ単価10,000円って。これ絶対にデータミスでしょ。
(いや、それは本当に1万円なんだよ…)
でもってですね、まあ分析をしているとさらにデータが欲しくなってくるわけですわ。例えばこのモリソン案件の場合ですと、どのお客さんがリピーターなのかとか知りたい。そのためには購買履歴とお客さんIDを結びつけた買ったりしますよね。モリソンの場合はモリスさんが技術に明るい方ですし、何よりも1人で切り盛りされてらっしゃるので、すぐ目処がつきました。これがですね、ある程度の規模以上のクライアントさんとなると話が違うわけです。そもそもデータを持っているチームが違ったりしてですね、データを一か所に集めてくるのですら至難なわけです。データのあるところがてんでバラバラで、連携が取れておらず、そもそも組織全体で見た時に何のデータがどの位の粒度であるのかが非常に不透明。僕らははこのことを「データのサイロ化」と呼んだおります。
(あれ、モリスは…、何かパソコンいじってる。てかTシャツはディスられたけどなんか自分は褒められたので微妙な顔してんなー)
このデータのサイロ化が解決されない限り、ビッグデータの有効活用は難しい。ですがね、ほんとに厄介なのは三つ目のBですよ。そう、みなさん場当たりなんです。最近急にビッグデータが持ち上げられるようになって「うちも競合さんには負けられへん」的なノリの会社さんが多いですよね。でもですね、ぼくの経験からしますと、ビッグデータというのはあくまでも本業のお手伝いです。よくインターネットの会社さんたちがビッグデータを使って収益がアップしたみたいな話が出ますが、忘れてはいけないのは、彼らにはすでにしっかりとしたビジネスがあって、それをデータ分析を通じて改善したということに過ぎないわけです。主役はビジネスモデル、データ分析はあくまで黒子です。そして当然ですが、高度なデータ分析以外にも改善の手段はたくさんあります。このことに気づいていない人が多い。
そりゃぼくもデータのプロですからね、そりゃ機械学習とか使ってビジネスがよくなれば嬉しいですわ。でもこの業界では、はじめにデータ分析の手法ありきで、それで解決できるようなビジネス課題を探すみたいな演繹的なアプローチも増えてきていて、それはどうなんかなと思う。まずはビジネス課題ありきで、それを解決していく中でビッグデータが糸口となるならドンドン使う。そういう方向性の方がええと思います。
最初はまた変なやつが出てきたと思ったのだが、話を聞いていると、随分まともなことを言うやつである。おれは段々こいつのことが好きになってきた。
...ということで本案件、よろしくですわ
「はい、こちらこそよろしくお願いします!」おれは威勢よくドクロマンと握手をした。
(筆者:たぶん続きます…)