總算回來了

各位好,如果你覺這個網站熟口熟面,冇錯,就是以前的MLACT.com。年初網站成日死都唔知咩事,restart server又冇事,直到3個月前完全死亡,咁啱又出差又多野做就冇理佢。 今朝的起心肝想搞先至發現比人hack左,拎走哂server資料仲勒索bitcoin, 我當然不會就範啦,you can kill me but not defeat me! 體現了前輩教誨 "多讀書,知識是財富,在你腦裡別人是拿不走的"。因沒有太多時間寫blog,今後會在這個免費wordpress發post就算,請多指教。

Sponsored Post Learn from the experts: Create a successful blog with our brand new courseThe WordPress.com Blog

Are you new to blogging, and do you want step-by-step guidance on how to publish and grow your blog? Learn more about our new Blogging for Beginners course and get 50% off through December 10th.

必勝賭馬方程式3 – Bill Benter的研究成果與方法

這兩天突然多了很多訪客,又收到一堆留言說要資料,正在想原因,剛好前輩就傳了兩則新聞給我看,馬上就明白了,原來是Bill Benter的大名被人搬出來報導。可以說Benter的研究是小弟的其中一個啓蒙,我在第一個介紹賽馬的post都有提及佢,亦有使用佢論文的概念計算,有興趣可以到此看看。

必勝賭馬方程式2 – 利用R收集賽事資料及資料清洗

過去半年小弟因工作的關係很少更新blog,這段期間經常收到各方同好短訊交流及索取賽馬資料庫,為此小弟感謝各位的支持,但因為實在太多人詢問,故應接不暇,另外因我沒有再更新資料庫,故對各位可能沒有實際作用,如只以研究為目的,那GitHub上的資料庫已經足夠。當然如果真的有需要可以問我拿資料,不過條件是有想法分享,或是真的看過文章和code後問問題再要求資料,幫我豐富一下網站資訊和互動,這算很公平吧。至於要做project的朋友我就不能幫了,可以參考此篇自己試一下找資料,有問題小弟定必解答。

香港賽馬賠率及彩池 + 2008-2016年度香港賽馬資料網上版分享

馬季即將開鑼,相信馬迷都正在準備,預祝各位好運。前幾天看了一套香港電視劇,其中一幕說起賽馬,內容大概是主角要用$

香港賽馬彩池是採用pari mutuel(同注分彩法),簡單說就是所有馬迷用金錢投票,投給自己心水馬/組合,集合起來的錢由馬會保管,並根據每匹馬的投注額計算賽馬賠率,如下:

必勝賭馬方程式? – 機器學習的預測分析應用

多年來有不少統計/數學專家研究利用數學模型計算賽馬勝出機會,其中的Multinomial Logistic Regression(MLR)加上Kelly Criterion更是其中的佼佼者,近年因傳媒報導職業賭徒與金主對薄公堂令「賭馬方程式」的討論又變得熾熱。回想N年前讀大學時上統計和精算堂,當時不太清楚教科書中的數學公式是否真的可以在現實生活中應用,直到某天於大學撞破(?!)兩個教授在辦公室裡研究利用統計模型計算NBA球隊勝率才知道原來讀書是很有用的....

開飯前要睇的食評網站數據分析 – 網絡爬蟲及文字挖掘的應用

相信很多朋友都喜歡出街食飯,不過最怕就是約親朋好友 開飯 去到服務差又難食的餐廳,所以開飯前都會到本地有名的食評網站做資料搜集,不過現時網絡上太多資訊,有時候要分真假並不容易。該食評網站提供了一個很好的途徑找出心水餐廳,不過近年不時遇上公關災難,被質疑站內有打手寫假食評和刪除用戶過激的食評,令公信力受損。撇除打手及刪貼問題,其實該網站有很多資料可供參考,但網站只提供基本的餐廳搜尋和評分,未能完全反映現時餐廳的質素。最近正在研究文字挖掘(text mining)和RStudio 的 Shiny App,用了幾天時間於R上建了一個網絡爬蟲(web crawler)抓資料,再利用R的jiebaR 、wordcloud2和tm package做分詞,最後用flexdashboard和shiny建立自選進階分析面版,放在shinyapp.io和自設的server作為練習。

香港私人住宅各類分區售價指數圖表 – 數據分解及GIF圖表學習

近日新聞報導香港樓價升至歷史新高,就想到看一下有什麼資料可以做個 地產數據分析 圖表,用十九區指標屋苑數據加香港地形圖和google map api做gif圖,最先想到當然是香港地產代理資料的先驅,數據有地圖和指數等,但到網站上看發覺web scraping要花較多時間,故退而求其次找了一家較細的代理,網址架構較簡單和有過去5年成交紀錄,用了廿分鐘寫web crawler和整理20萬行成交資料,打算用外國常用的first-second purchase log regression 做指數,但於R做data checking時就發覺殘缺不全,不是一堆幾萬蚊成交價的,就是天價尺價成交,七除八扣只有2萬行,分成十七個區和單位呎數大小後每組只有幾百行,做不了。

訓練電腦學習玩雅達利遊戲和視像即時識別

相信近年說起人工智能的話題,大家都會想起google的無人車和旗下deepmind的AlphaGO,尤其AlphaGO擊敗兩大圍棋高手李世乭和柯潔,引起全城哄動,而刊登在Nature雜誌的文獻亦被很多專家深入研究及分析,在此不再贅述,這裡想介紹一下deepmind團隊創造AlphaGO前、亦是間接令deepmind被google收購的一個小項目 - 用AI玩雅達利遊戲,如果你不知道什麼是雅達利,那說明你太年輕了XD。

New Initiatives and keyword search trend for Insurtech in Hong Kong

New Insurtech Initiatives in Hong Kong Hong Kong Insurance Authority ("IA") has just announced two new Insurtech pilot initiatives, Sandbox and Fast Track, on 29 Sept 2017.  This is quite unusual the insurance regulator in Hong Kong follows a "Innovate First, Regulate Later" purpose rather than an endless loop of consultation process.  Maybe IA wants … Continue reading New Initiatives and keyword search trend for Insurtech in Hong Kong

Insurtech: How technology may change the insurance industry

Thanks for the wave of big data and Fintech, Insurtech becomes hot topic among the industry in recent years and many enterpreneurs are ready to take action for pursuing new opportunity.  Last month, the first-ever online insurance company in China, ZhongAn (06060.HK), which backed by big names - Alibaba, Ant Financial Services and Tencent, successfully … Continue reading Insurtech: How technology may change the insurance industry