ทำไม Data ถึงสำคัญ? พูดคุยกับคุณทอย (DataRockie)

why Data matter

1. Data คืออะไร

– Data คือ ทุกอย่างที่เกิดขึ้นมาบนโลกแล้วมีการบันทึกเอาไว้ เก็บอยู่ใน database สักที่หนึ่ง เช่น ที่เราคุยกันอยู่นี้ ถ้าเรามีการอัดเสียง แล้วสามารถไปเปิดย้อนหลังได้ อันนี้ก็ถือว่าเป็น data แล้ว

– Data ไม่จำเป็นต้องอยู่ในตาราง Excel อย่างเดียว data อาจจะเป็นวิดีโอ ไฟล์เสียง รูปภาพ คอมเมนต์ทวิตเตอร์ ที่มีการบันทึกไว้ สามารถเป็น data ได้หมดเลย

2. ประเภทของ Data

*1. Unstructured Data (ข้อมูลที่ไม่มีโครงสร้าง)

– เช่น วิดีโอ รูปภาพ ไฟล์เสียง ในโลกนี้ กว่า 90% ของข้อมูลในโลกเป็น Data ประเภทนี้ สังเกตได้จากวิดีโอที่มีอยู่มากมายบน Youtube หรือภาพที่เราถ่ายกันในมือถือ ข้อมูลประเภทนี้จะจัดการได้ยากที่สุดและมีขนาดใหญ่ที่สุด

*2. Semi-structured Data (ข้อมูลที่กึ่งมีโครงสร้าง)

– เช่น พวกไฟล์ JSON format (JavaScript Object Notation) เวลาเราที่เปิดแอปพลิเคชั่นขอข้อมูล เช่นข้อมูลอากาศ ตัวเครื่องจะส่ง request ไปหาเซิฟเวอร์ และเซิฟเวอร์ก็จะส่ง reponse กลับมา ว่าวันนี้อากาศเท่าไหร่ ข้อมูลที่รับ-ส่งกันผ่านอินเทอร์เน็ต ส่วนใหญ่จะอยู่ในรูปแบบของ JSON format จะจัดการง่ายขึ้นกว่า Unstructured นิดนึง

*3. Structured Data (ข้อมูลที่มีโครงสร้าง)

– ข้อมูลที่จัดการได้ง่ายที่สุดคือข้อมูลที่เป็น table มี column และ row โดย column อาจจะเป็นวันที่ ชื่อลูกค้า รายได้ ส่วน row ก็จะเป็น transaction ไล่ไปเรื่อยๆ เวลาอยู่ใน table ก็จัดการง่าย Excel ก็สามารถใช้ pivot table ก็วิเคราะห์ได้แล้ว

– ถ้าเราเข้าใจความแตกต่างของ Data แต่ละประเภท เราก็จะเลือกใช้เครื่องมือในการวิเคราะห์มันได้ถูก

– จริงๆ unstructured data อย่างเช่น รูปภาพ ถ้าเป็นขาวดำ จริงๆ แล้วคอมพิวเตอร์ไม่ได้มองเห็นเป็นรูปภาพเหมือนที่มนุษย์เราเห็น มันจะมองเห็นเป็นตัวเลข ถ้าเกิดเป็นเลขทั่วไปก็จะเป็นเลข 0 ถึง 255 มันก็จะเป็นตัวเลขแล้วรวมกันเป็น pixel เป็นรูปภาพภาพหนึ่งขึ้นมา

– ถ้าเป็นรูปสีก็จะเป็น matrix สามชั้นซ้อนกันขึ้นมา เป็น Red, Green, Blue Channel เพราะว่ารูปสี มันคือช่องสีแดง เขียว น้ำเงินมาซ้อนกันเป็นรูปภาพที่มีสี แต่สุดท้ายแล้วข้อมูลที่เป็น unstructure เวลาเราจะประมวลผล เราต้องเปลี่ยนมันให้กลายเป็นตัวเลขหมดเลย ก็จะคล้ายๆ ว่าเป็นการ transform data ให้มันมี structure นิดนึง เพื่อที่เราจะได้ manipulate มันได้ เช่น พวกโปรแกรม Photoshop หรือว่า Lightroom สมมุติเราถ่ายรูปแล้วใส่ลงไปในโปรแกรม แล้วมีการปรับแสง ปรับสี ปรับ contrast ปรับ saturation มันคือการเล่นกับตัวเลขที่อยู่เบื้องหลังรูปภาพพวกนั้น การปรับให้สว่างขึ้นหรือจางลง มันก็คือเปลี่ยนตัวเลข สุดท้ายทุกอย่างเป็นตัวเลขหมดเลย Digitization คือการเปลี่ยนข้อมูลอนาล็อกสมัยก่อนไปเป็นดิจิทัลฟอร์แมตซึ่งคอมพิวเตอร์จะเห็นเป็น binary 1 กับ 0

– ข้อมูลปกติต้องมาทำให้มันเป็นโครงสร้างก่อนถึงจะนำมาใช้ได้ ถ้าข้อมูลตอนนี้ไม่มีโครงสร้างก็ต้องเริ่มใส่โครงสร้างให้มัน

3. ทำไม Data ถึงสำคัญ

– เพราะว่าทุกวันนี้มีคนซื้อขาย data ยกตัวอย่างเช่น Peter Thiel (ผู้เขียนหนังสือ Zero to One, ผู้ก่อตั้ง Paypal) เข้าไปก่อตั้งบริษัทนึงชื่อว่า Palantir Technologies อยู่ใน Silicon Valley เป็น data broker เก็บข้อมูลลูกค้าหลายๆ คน แล้วเอาไปขายต่อ มูลค่าของ data ตอนนี้มากกว่าน้ำมัน มูลค่าตลาดของบริษัทนี้พอๆ กับ Twitter แต่เราจะไม่เคยได้ยินชื่อบริษัทพวกนี้เลย เพราะว่าบริษัทค่อนข้างเป็น Grey Industry อยู่ เลยเป็นที่มาว่าทำไม data ถึงสำคัญ เพราะว่ามีคนมาซื้อขายกัน มันเริ่มมีมูลค่าในตัวมันเอง

– ยกตัวอย่างง่ายๆ เช่น เบอร์โทรศัพท์ เวลามีคนโทรมาขายประกัน บริษัทพวกนั้นอาจจะมีการซื้อขาย data กัน แต่เราอาจจะไม่รู้

– หลายๆ บริษัทเก็บข้อมูลและพยายามหาคนมาช่วยวิเคราะห์ เพราะเชื่อว่า data ถ้าเราสามารถใช้มันได้อย่างถูกต้อง จะสามารถช่วยไกด์ธุรกิจเราได้ อย่าง Data Science คือสกิลการเปลี่ยน data ให้กลายเป็น insight ที่เหมือนกับเข็มทิศที่จะช่วยนำทางว่าธุรกิจของเราจะไปทางไหนดี

– สมัยก่อนถ้าเราไม่มี data เราจะใช้นักการตลาดแบบ hunt หรือใช้สัญชาตญาณ แต่ทุกวันนี้ถ้าเรามี data มันจะช่วยคอนเฟิร์มหลายๆ อย่าง ว่าที่เราทำมันน่าจะ success หรือว่าน่าจะ fail

– เพิ่มโอกาสในการสำเร็จและลดโอกาสในการที่จะไม่สำเร็จลง

4. คนที่เหมาะกับการใช้ Data

– Data สามารถใช้ได้ในทุกธุรกิจไม่ว่าเราจะทำอะไร มีคนรู้จักทำร้านขายขนมที่เป็น SME เขามี data ขนมเก็บไว้ใน Excel แล้วก็พยายามจะ track ว่าใครจ่ายเงิน ใครซื้อสินค้าอะไรบ้าง พอเราเข้าไปช่วยดู data แล้วก็พบว่า data ที่เขาเก็บไว้ format มันยังไม่ถูกต้อง ถ้าเราเรียง format ให้ถูกต้องแยก table ให้ชัดเจนก็จะจัดการได้ง่ายขึ้น หาคำตอบอะไรได้ง่ายขึ้น เช่น อยากจะ sum มาเลยว่าวันนี้ลูกค้า 100 ออเดอร์ มีกี่คนที่จ่ายเงินให้เราแล้ว มีกี่คนที่ยัง pending อยู่ สินค้าตัวไหนที่ขายดี เราก็สามารถบอกได้ หรือว่าถ้าเรารู้ว่าสินค้า A กับสินค้า B มันขายได้คู่กันบ่อย เราก็ควรจะจัดโปรโมชั่นด้วยกันไหม หรือว่าถ้าเป็นร้านค้าที่มีหน้าร้าน เราควรวางสินค้าสองชิ้นนั้นคู่กัน รวมไปถึงการอาจจะ forecast อนาคตได้ด้วยว่า ยอดขายตัวไหนจะเพิ่มขึ้นหรือว่าลดลง ขนาด SME เจ้าเล็กๆ ที่ขายขนมอาจจะมีแค่ไม่กี่ SKU ยังสามารถเก็บ data เพื่อที่จะเอาไปทำอะไรได้อีกเยอะแยะ เลยรู้สึกว่าทุกธุรกิจก็สามารถทำได้

– แม้แต่ตัวบุคคล ถ้าเราเริ่มเก็บข้อมูลค่าใช้จ่าย ว่าในแต่ละวันเราใช้จ่ายอะไรไปบ้าง เป็น category ไหน เป็นค่าอาหาร ค่า entertainment ค่าซื้อหนังสือ ค่าเดินทาง สมมุติเก็บไปสัก 3 เดือน แล้วเราเอาข้อมูลมาลองวิเคราะห์ดู เราก็จะเริ่มรู้แล้วว่าชีวิตเราใช้จ่ายกับอะไรไปบ้าง เราก็สามารถที่จะ optimize มันได้เพื่อให้เราจะได้มีเงินเก็บมากขึ้น ก็สามารถทำได้ถ้าเรามี data

– เชื่อว่าทุกคนสามารถใช้ data ได้ แล้วบริษัทยิ่งใหญ่ ยิ่งมี data เยอะ ยิ่งได้เปรียบ เรารู้อยู่แล้ว บริษัทอย่าง Facebook, Google, Amazon เป็นบริษัทที่เก็บ data อย่างมหาศาลมาก เราก็เห็นมูลค่าธุรกิจแล้วว่าเขาสามารถเอา data มาทำอะไรได้เยอะมาก ทุกอย่างที่เราทำบน Facebook มันวิ่งกลับมาหาเราหมดเลย เพราะว่าเขาเก็บ data ไว้ แค่เรา log in เข้าไปในหน้า Facebook แล้วไถ feed ถึงจะเป็นแค่การไถผ่านโฆษณา เราก็จะกลายเป็น 1 data point ที่เอาไปคิดคำนวณ conversion rate ถ้าอยากจะ protect data ตัวเองเลยจริงๆ อาจจะต้องไม่เล่นเลย ไปทำอะไรที่เป็นอนาล็อก

– บางครั้งอัลกอริทึมมันก็สามารถทำนายได้ สมมุติเราอยากรู้ว่าเราควรจะได้เงินเดือนเท่าไหร่ ก็คือเอาเพื่อนสนิทเราห้าคนมาหารกัน ในมุมของ interest ก็เช่นกัน สมมุติใน Facebook เราคุยกับใครบ่อย Facebook ก็จะรู้ว่าอันนั้นเป็น strong connection ของเรา ถ้าคนที่เราคุยด้วยบ่อยๆ รอบตัวเรา ชอบดูฟุตบอล Facebook มันก็จะสามารถเดาได้แล้วว่าเราก็น่าจะชอบดูฟุตบอลเช่นกัน interest มันเก็บละเอียดมาก ทำให้สามารถทำ prediction ได้

5. คำแนะนำสำหรับคนอยากเริ่มใช้ Data

– อย่างแรกคือต้องเก็บ Data ให้เป็นก่อน ถ้าเป็นคนทั่วไปก็จะมีแอพพิลเคชันเยอะมากที่ช่วยเราเก็บข้อมูล อย่างผมใช้ Notion เป็นเหมือนแอพจดโน้ต มี calender มีอะไรก็กรอกเข้าไปเป็น diary หรือ track ค่าใช้จ่ายก็ทำได้ จริงๆ แล้ว tool อย่างพวก project management ไม่ว่าจะเป็น Trello หรืออื่นๆ สามารถใช้ในการเก็บข้อมูลได้หมดเลย

– พอข้อมูลมันเริ่มเยอะขึ้น มันเริ่มมีโครงสร้าง ถ้าใส่ไปใน Excel ได้ ก็เก็บไปใน Excel แต่ข้อเสียของ Excel คือถ้ามีใครคนนึงมาลบ column นึงเราทิ้งแล้วเซฟทับ ข้อมูลก็จะหายไป ก็อาจจะไม่ค่อย secure เท่าไหร่ เราอาจจะใส่ password ได้ แต่ถ้าอีกสามเดือนเราลืมก็อาจจะแย่อีก

– เพราะฉะนั้นการเก็บข้อมูลที่มันเริ่มใหญ่หรือมีโครงสร้างมากขึ้น เราจะใช้เป็นพวก database เช่น ภาษา SQL จริงๆ ทำได้ง่ายจะมี software เช่น DB Browser, SQLite ก็สามารถสร้าง table มาเก็บข้อมูลได้และมันค่อนข้างจะ strict กว่า Excel เยอะเลย คนทั่วไปไม่สามารถเปิดแล้วมาลบ column ได้ง่ายๆ มันจะมี process ที่มันยุ่งยากขึ้น ข้อมูลเราก็จะเก็บได้ง่ายและคงทนขึ้น ข้อแตกต่างอีกอย่างคือ Excel สามารถเก็บข้อมูลได้แค่หนึ่งล้าน record แต่ข้อมูลที่เป็น relational database เก็บข้อมูลได้เป็นพันล้าน record ก็มีเรื่องของ scale เขามาเกี่ยวข้องด้วย

– ถ้าใช้ Google Sheet ก็มี feature ที่ดีคือมี history เก็บไว้ทั้งหมดสามารถเลือกย้อนไปเป็นวันไหนที่ผ่านมาก็ได้ แต่ก็ยังมีข้อจำกัดเหมือน Excel อยู่เหมือนกัน

– ต้องเริ่มที่เก็บข้อมูลให้ได้ก่อน แล้วค่อยคิดว่าจะเอาข้อมูลไปทำอะไรต่อ

– มีรุ่นน้องเป็นเจ้าของร้านอาหาร มี data อยู่ แต่ไม่เคยเอาออกมาใช้ เนื่องจากอยู่ในเครื่อง POS (Point of Sale) ไม่เคยดึงออกมาใช้งาน วันนั้นผมเลยลองไปดึงข้อมูลออกมาใช้งานให้เขาดู เขาก็เห็นภาพมากขึ้นว่าจริงๆ เราสามารถเอาข้อมูลมาทำอะไรได้อีกเยอะ ช่วยหา insight ได้ จริงๆ ระบบ POS ก็จะมีหน้าต่างให้สามารถเข้าไปดูข้อมูลได้อยู่แล้ว แต่อาจจะค่อนข้างจำกัด ถ้าอยากจะหา insight จริงๆ อาจจะต้องดึงข้อมูลออกมาจากระบบ POS ให้ได้

– ระบบที่ดีคือระบบที่ data เป็นของเจ้าของธุรกิจ เจ้าของธุรกิจต้องมีสิทธิ์เข้าถึง data ได้เองเลย โดยไม่ต้องรอขอจากเจ้าของระบบ เพราะฉะนั้นเวลาเลือกใช้ระบบก็ต้องเลือกระบบที่ตัวเราเอง สามารถเข้าถึงได้อย่างง่ายๆ

– หลายๆ บริษัทที่อยากทำ digital/data transformation ต้องบอกว่าเรื่อง data เป็นเรื่องสำคัญ ถ้าองค์กรอยากเปลี่ยนไปทำพวกดิจิทัล แต่องค์กรหรือหน่วยงานส่วนใหญ่ยังหวง data อยู่เลย ไม่ยอมเปิดให้คนในองค์กรมาดึง data พอพนักงานในบริษัทเข้าไม่ถึง data เขาก็ไม่สามารถเอา data มาใช้ประโยชน์อะไรได้ มันก็ไม่เกิดเป็น digital transformation อันนี้ก็เป็นเรื่องของ policy หรือนโยบายด้วย สเต็ปใหญ่ๆ สเต็ปแรกขององค์กรเลยที่ควรทำคือ การเปิด data ในองค์กรให้พนักงานสามารถเข้าถึงได้

– คนที่ทำงานที่ Facebook มากกว่า 90% จะสามารถเขียน SQL ได้ทุกคน สามารถเขียน query ดึงข้อมูลออกมาใช้ประโยชน์ เพราะว่า value ของ Facebook คือทุกคนต้องเข้าถึง data แล้วใช้ data มาช่วยในการหา insight เพื่อช่วยในการตัดสินใจให้ดีขึ้น เขาเปิดเรื่อง data มาก และ Facebook ก็เป็นบริษัทอันดับต้นๆ ของโลก

6. การใช้ Data ในองค์กร

– บริษัทใหญ่ๆ พยายามจะหา tool ที่ใช้งานง่าย ไม่ต้องเขียนโค้ด พนักงานสามารถเข้ามา drag & drop เพื่อดึงตัวแปร ทำ pivot table และสามารถหา insight ได้เลยเบื้องต้น แต่ถึงจะมี tool แล้วก็ใช่ว่าพนักงานจะเข้ามาใช้ เพราะว่าการเปลี่ยนพฤติกรรมคนในองค์กรทำได้ยากมาก

– คนส่วนใหญ่สมัยก่อน เช่น ทีมการตลาดอยากจะได้ data ก็จะส่งอีเมลมาหาทีม data ทีม data ก็จะดึงข้อมูล หา insight แล้วก็ส่งเป็นรีพอร์ตกลับไป เป็น culture ที่เป็นแบบนี้มาหลายสิบปี หลายๆ องค์กรก็เป็นแบบนี้ เพราะฉะนั้นถึงเราจะมีเครื่องมือเป็น self service พนักงานทั่วไปก็จะไม่เข้ามาใช้อยู่ดี เพราะที่ผ่านมาเขาไม่เคยใช้มาก่อน ทำไมอยู่ดีๆ วันนี้ถึงจะต้องมาใช้ ผมเลยคิดว่าเรื่องพวกนี้เป็นเรื่องของความชอบส่วนบุคคลด้วย ถ้าคนคนนั้นมีความชอบ อยากจะเรียนรู้เรื่อง data คนกลุ่มนี้จะช่วยทำให้องค์กรเติบโตได้เร็ว เพราะพนักงานอยากเรียนรู้ด้วยตนเอง อยากจะใช้เรื่อง data

– ส่วน SME อาจจะไม่จำเป็นที่ทุกคนจะต้องเข้าถึง data อยู่ที่จุดประสงค์ ถ้าธุรกิจไม่ได้ใหญ่มาก เจ้าของธุรกิจอาจจะนั่งทำเองก็ได้เบื้องต้น เริ่มที่ตัวเจ้าของเป็นคนวิเคราะห์ข้อมูลเอง พอได้ insight อะไรแล้วก็ไปคุยกับพาร์ทเนอร์ แชร์ insight ให้กันและกัน น่าจะเป็นจุดเริ่มต้นที่ดี

– บางทีถ้าเราไม่เก่งอะไรเราอาจจะต้อง outsource ไปหาคนที่เก่งกว่า SME มีเครื่องมือที่สามารถ outsource ได้หลายอย่าง ไม่จำเป็นที่จะต้องเก่งทำเองทุกอย่าง ช่วงแรกอาจจะลองหาคนที่เก่งกว่า ไปหาบริษัทหรือ cloud service ที่เข้ามาตอบโจทย์ได้

– ขึ้นอยู่ที่ objective ว่าเราจะเอา data ไปทำอะไรด้วย สุดท้ายผมมองว่า data เป็นสกิลที่ทุกคนควรจะทำให้เป็นเบื้องต้น ไม่งั้นถ้าเราทำเองไม่เป็น สมมุติถ้าองค์กรเราไม่รู้เรื่อง data เลย เราก็จะไปจ้าง consult เข้ามาช่วย ซึ่งอาจจะใช้เงินเยอะมาก ทั้งๆ ที่ถ้าใช้พนักงานเราทำเองอาจจะถูกกว่าเยอะมาก ค่าราคาของความไม่รู้มันแพงมาก mark up margin ของบริษัท consult จะสูงมาก ถ้าเราสามารถปั้นคนในองค์กรให้ทำเรื่องพวกนี้ได้ เราจะเซฟเงินตรงนี้ไปได้อีกเยอะ

– อย่างที่ SCB ก็จะมีโครงการให้พนักงานที่สนใจเรื่อง data สามารถ re-locate กันได้เลยในองค์กร เช่น คนที่อยู่การตลาดแต่มีความสนใจเรื่อง data สามารถเข้าโครงการเพื่อ training และเปลี่ยนมาเป็น data analyst ได้ อันนี้คือนโยบายที่หลายๆ บริษัทควรจะมี คนๆ นึงไม่ควรจะทำได้แค่ตำแหน่งเดียวด้วยซ้ำ สุดท้ายคนนึงควรจะทำได้หลายๆ สกิล ก็จะช่วยทำให้องค์กรได้เติบโตได้ดีขึ้น

– การที่คนๆ นึง specialize หนึ่งสกิลก็ดี แต่โดยส่วนตัวเชื่อว่าคนที่จะขึ้นไปเป็นระดับผู้บริหารในองค์กรใหญ่ๆ ได้ เช่น CEO หรือเจ้าของธุรกิจ เขาไม่ได้เก่งเรื่องการตลาดอย่างเดียว ต้องรู้เรื่องการเงิน การทำ competive analysis อาจจะรู้เรื่องไอที เรื่อง infrastructure เบื้องต้น คนที่จะเป็นระดับผู้บริหารได้ต้องรู้กว้าง เพราะฉะนั้นพนักงานในองค์กรถ้าเราอยากจะปั้นให้เขาเป็นเหมือนผู้บริหาร ก็ต้องลองให้เขาได้ทำหลายๆ อย่าง บางอย่างเขาอาจจะยังไม่ถนัดวันนี้ แต่ไม่ได้หมายความว่าเขาทำไม่ได้ เรามองไปถึงอนาคตหรือ pontential ของพนักงานที่จะสามารถเป็นได้มากกว่า

7. ทริคและข้อควรระวังในการใช้ Data

*1. Correlation does not imply causation

– สมมุติเราเห็นตัวแปรสองตัว X กับ Y มีความสัมพันธ์กัน ไม่ได้แปลว่าตัวแปร X จะทำให้เกิดตัวแปร Y เสมอ ยกตัวอย่างเช่น ไก่ขันแล้วพระอาทิตย์จะขึ้น สองเหตุการณ์นี้มี correlation (ความสัมพันธ์) กัน แต่ถ้าเราเอามือไปปิดปากไก่ไม่ให้ขัน พระอาทิตย์ก็ขึ้นอยู่ดี แปลว่ามันไม่ได้มี causation (ทำให้เกิด) ต่อกัน

– แต่สมมุติวันนี้ถ้าเราบอกว่าหลังจากทำเซอร์เวย์เพื่อหาความพึงพอใจของลูกค้า แล้วเอาไปจับคู่กับยอดขาย สองสิ่งนี้ก็อาจจะมี correlation และเป็น causation กันด้วย พอลูกค้าพอใจมากขึ้น มันก็อาจจะมี positive correlation กับยอดขาย ถ้าเราทำให้ลูกค้าแฮปปี้ เขาก็มีโอกาสจะกลับมาซื้อมากขึ้น ก็สามารถเพิ่มความเป็นไปได้ในยอดขายในอนาคตที่มากขึ้น อันนี้ก็จะเป็น causation กันด้วย

– อาจจะฟังดูง่ายแต่ในชีวิตจริงการพิสูจน์ causation นั้นไม่ง่าย ยกตัวอย่างเช่น การดูดบุหรี่กับการเกิดโรคมะเร็งปอด สมัยก่อนกว่าที่เขาจะค้นพบว่า การดูดบุหรี่ส่งผลต่อเรื่องมะเร็งปอด เขาเก็บข้อมูลมาเป็นสิบปีกว่าจะพิสูจน์ได้

– Causation ในชีวิตเรา หลายๆ อย่างเรารู้อยู่แล้วที่มันเป็น fact แต่ในการทำธุรกิจ เวลามี data เยอะๆ การจะหาความสัมพันธ์เจอ เป็นเรื่องที่ยากมาก โดยเฉพาะในยุคของ big data ที่มี data มหาศาล การที่จะหา true causality มันเป็นไปได้ค่อนข้างยากเหมือนกัน

– ทริคที่อยากจะแนะนำคือ ถ้าเกิดเหตุการณ์นึง ส่งผลให้ความน่าจะเป็นของอีกเหตุการณ์นึงมันเปลี่ยนไป อันนี้เรียกว่าเป็นนิยามของ causation การดูดบุหรี่เปลี่ยนความน่าจะเป็นของการเกิดมะเร็งปอด ให้โฟกัสที่คำว่า “ความน่าจะเป็น” ทุกคนที่ดูดบุหรี่ไม่ได้แปลว่าเขาจะเป็นมะเร็งปอด บางคนดูดมาทั้งชีวิตก็ไม่เป็นมะเร็ง บางคนดูดไม่กี่มวนเป็นมะเร็งปอดเลยก็มี แปลว่าการดูดบุหรี่ไม่ได้การันตีว่า คุณจะเป็นโรงมะเร็งปอด แต่การดูดบุหรี่มันเปลี่ยนแปลงความน่าจะเป็นของการเกิดเป็นโรคมะเร็งปอด ไม่ได้แปลว่าคุณจะเป็น แต่แปลว่าคุณเริ่มมีความเสี่ยง นี่คือเรื่องของ causation ที่อยากให้จำกฏข้อนี้เอาไปใช้

– ถ้าจะให้ยกตัวอย่างในเชิง business สมมุติเราเปิดเว็บไซต์ขึ้นมา แล้วเราอยากจะ optimize conversion บนหน้าเพจ เช่น มีคนเข้าเว็บไซต์เรา 100 คน อยากให้เขาคลิกเปิด podcast เราเพิ่มขึ้น เลยลองเปลี่ยนดีไซน์เว็บไซต์ดู ลองใช้แบนเนอร์ด้านบนเปลี่ยนเป็นสีเขียว กับอีกเวอร์ชั่นใช้เป็นสีฟ้า เซ็ตเป็นการทดลองทำเป็น A/B Testing ให้คนที่เข้าเว็บไซต์เรามาครึ่งนึงเห็นสีเขียว อีกครึ่งนึงเห็นสีฟ้า แล้วก็เอา conversion ของทั้งสองแบบมาเทียบกัน ถ้าแบบไหนดีกว่าก็จะเอาแบบนั้นมาใช้งานต่อบนเว็บไซต์ หลังจากนั้นเราก็ต้องลองทดสอบตัวแปรอื่นไปเรื่อยๆ เพื่อให้มันดีขึ้น

– ไม่ได้หมายความว่าเราทดสอบตัวเดียวแล้วจะจบ อีกวันก็ต้องคิดเทสตัวใหม่ขึ้นมา ที่ทำยังไงเราจะ optimize conversion ให้สูงขึ้นได้เรื่อยๆ เทสเพื่อพัฒนาและเป็นเทสที่ไม่มีวันจบเพื่อพัฒนาธุรกิจต่อไปเรื่อยๆ หลายๆ คนพอทำสำเร็จแล้วจะชอบหยุด แต่จริงๆ มันสามารถพัฒนาไปได้อย่างต่อเนื่องไม่มีที่สิ้นสุด

– แล้วการที่เราทำอะไรสำเร็จแล้ว ไม่ได้แปลว่ามันจะดีตลอดไปด้วย สมมุติเช่น เราลองทดสอบแล้วพบว่าสีเขียวดีกว่า พอเวลาผ่านไปสีฟ้าอาจจะดีกว่าก็ได้ นอกจากนี้เราอาจจะต้องลองปรับ font ให้ใหญ่ขึ้น ปรับภาพ พวกนี้เป็นศาสตร์เลยที่เรียกว่า CRO (Conversion Rate Optimization) เมืองนอกจะมีตำแหน่งที่โฟกัสเรื่องนี้เป็นหลักเลย ซึ่งในโลกของ Digital Marketing จะใช้พวกนี้ค่อนข้างเยอะ

– เบื้องหลังของพวกนี้ทั้งหมดคือ data เราเก็บ data มาเพื่อ validate สมมุติฐาน ข้อสันนิษฐานกับธุรกิจของเรา เราเลือกด้วย data เรา optimize process ด้วย data ที่เราเก็บมา

*2. Frequentist Probability vs. Bayesian Probability

– ความน่าจะเป็น มีอยู่สองนิยามในทางทฤษฎี

– แบบที่หนึ่ง Frequentist Probability เป็นแบบที่หลายๆ คนเข้าใจ เช่น เรามีเหรียญที่เป็น fair coin ถ้าเราโยนก็มีความน่าจะเป็นที่ออกหัว 50% ออกก้อย 50% ถ้าโยนเหรียญไปเป็นพัน เป็นหมื่นครั้ง ความน่าจะเป็นที่จะออกหัวก็จะยังอยู่ที่ประมาณ 50%

– แบบที่สอง Bayesian Probability คือความเชื่อ สมมุติการเลือกตั้งสมัยหน้า คิดว่าใครจะมีโอกาสชนะ ระหว่างนาย A กับนาย B ถ้าถามคำถามนี้กับคนหลายคน เราจะได้คำตอบไม่เหมือนกันเลย ความน่าจะเป็นนี้ จะไม่เหมือนการโยนเหรียญหัวก้อยแล้ว ความน่าจะเป็นนี้มันคือความเชื่อของแต่ละคน (Personal Believe) และนี่คือนิยามที่สองที่อยากให้ทุกคนเข้าใจว่าความน่าจะเป็นคืออะไร

– ความน่าจะเป็นแบบที่สองคือ ความเชื่อของแต่ละคน ประเด็นคือความเชื่อตัวนี้มันควรจะเปลี่ยนได้ แต่บางคนเมื่อเชื่อบางอย่างแล้วก็ไม่มีวันเปลี่ยน แม้เราจะพยายามเอาข้อมูลใหม่ๆ มาพิสูจน์ แต่หลายๆ คนก็ยังไม่เปลี่ยนความเชื่อของตัวเอง ยึดติดกับสิ่งตัวเองเชื่อ

– สิ่งที่อยากจะบอกทุกคนคือถ้าวันนี้เราเก็บ data ขึ้นมาใหม่ แล้ว data ตัวนี้มันเริ่มสั่นคลอนความเชื่อของเรา ความน่าจะเป็นที่เราพูดเมื่อกี้มันน่าจะต้องเปลี่ยนได้ เช่น สมมุติเราเก็บข้อมูลใหม่ว่า เราพบว่านาย A มีการทุจริต มีการโกง แปลว่าข้อมูลใหม่ตัวนี้จะทำให้การตัดสินใจของเราเปลี่ยน ความน่าจะเป็นที่นาย A จะชนะการเลือกตั้งก็จะน้อยลง เพราะเราได้รับข้อมูลใหม่มา ความเชื่อควรจะเปลี่ยนได้ ความน่าจะเป็นก็เปลี่ยนได้เหมือนกัน base on data ที่เก็บมา

– ตัวผมจะเชื่อในแบบที่สองมากกว่า เพราะเชื่อว่าความน่าจะเป็นในชีวิตเราหลายๆ อย่าง มันเป็นเรื่องความเชื่อ ถ้าเราเก็บข้อมูลใหม่มันก็น่าจะเปลี่ยนไปเรื่อยๆ

– ยกตัวอย่างให้เห็น use case เคยมีเรือลำนึงแล่นแล้วหายไปจากเรดาห์ ทีมกู้ภัยก็อยากจะรู้ว่าเราควรไปค้นหาแถวไหนดี เนื่องจากทะเลมันกว้างใหญ่มาก สิ่งที่เขาทำก็คือเขาค่อยๆ เก็บ data มา แล้วเขาก็ค่อยๆ เอามาอัพเดทโมเดล แสกนดูพื้นที่ทะเล ดูอุณหภูมิ ดูสภาพอากาศ มาอัพเดทตัวโมเดล จะได้ scope ลงมาว่า base on data แล้วเรือน่าจะไปจมอยู่ที่ไหน สุดท้ายแล้วตัวก็จะสามารถบอกบริเวณที่เรือน่าจะจมได้ แล้วก็ไปหาเจอด้วย ถ้าเราเก็บ data ที่มัน valid มันก็จะช่วยให้เราตัดสินใจได้ดีขึ้น

– ความน่าจะเป็น เป็นแค่สิ่งที่น่าจะเกิดขึ้นได้ ไม่ใช่ fact ไม่ใช่ 0 หรือ 1 แต่เป็นเสกล 0 ถึง 1 ว่าเราจะเอียงไปทางไหนมากกว่ากัน แต่ถึงมันจะเป็น opinion แต่เราก็มีวิธีการ caribate ให้มันใกล้เคียงกับความเป็นจริงได้ ด้วยการเก็บ data เข้ามา เวลามี data เราต้องมา evaluate ด้วยว่า data มัน valid ไหม มันสะท้อนความจริงขนาดไหน มันเป็น fact หรือเป็นแค่ opinion

– จะมีคำพูดคำหนึ่งว่าทุกอย่างที่เราได้ยินในโลกนี้เป็นแค่ความเชื่อ เป็นความเห็น ส่วน fact จริงๆ หาค่อนข้างยากในทุกวันนี้

8. วิธีเพิ่มความรู้ด้าน Business สำหรับคนทำงานสาย Data

– เริ่มจากการอ่านหนังสือดีๆ มีเล่มนึงที่ชอบมากชื่อ Business Made Simple – Donald Miller และอยากให้ลองอ่านเคสของแบรนด์ที่ประสบความสำเร็จ เวลาที่ทำแคมเปญแล้วเวิร์ค อยากให้ลองไปเรียนรู้ดู

– แต่การที่อันไหนเวิร์คในอดีตก็ไม่ได้หมายความว่าจะเวิร์คในอนาคต แต่มันก็จะให้ไอเดียเราเบื้องต้นว่ามันทำได้ยังไงบ้าง สุดท้ายก็คือเวลาเราไป implement จริง ต้องมีการทำ testing ที่ Data Analyst ทุกคนควรจะทำให้เป็น

– ถ้าเราเข้าใจว่า business มัน operate ยังไง ก็จะทำให้เราทำงานได้ง่ายขึ้น เหมือนในหนังสือ Business Made Simple มีการกล่าวไว้ว่า business ทำงานเหมือนเครื่องบิน ปีกสองข้างของเครื่องบินเหมือนเป็น product กับ service ถ้าปีกยิ่งใหญ่ก็คือ product กับ service เรายิ่งสตรองก็จะบินขึ้นได้ แต่เครื่องบินจะบินได้เร็วขนาดไหนมันก็ต้องมีเครื่องยนต์ก็คือ marketing กับ sales ส่วนตัวบอดี้ก็จะเป็น overhead cost (พวกค่าใช้จ่าย เงินเดือน ค่าใช้จ่ายที่ไม่ได้เกี่ยวข้องกับการผลิตสินค้า) ส่วนหางเครื่องบินก็จะเป็น cash flow ถ้าเราเข้าใจว่าเครื่องบินบินได้ยังไง business ทำงานยังไง เครื่องบินจะบินขึ้นได้หรือว่าจะตก มันขึ้นอยู่กับว่าเราจะบาลานซ์ทุกส่วนของเครื่องบินได้ยังไงบ้าง ที่เหลือ data science ก็คือการเข้าไป optimize แต่ละส่วนของเครื่องบิน ให้มันบินได้อย่าง smooth และไปถึงเป้าหมายได้เร็วที่สุด


รายละเอียด

Date: 7 July 2021 (21:00-22:30)

Speaker: คุณทอย – เจ้าของเพจ DataRockie

Moderator: พี พนิต – วันนี้สรุป..มา


#ClubhouseTH #WhyItMatters #ทำไมถึงสำคัญ #Data #DataRockie #todayinotetoevent #todayinoteto #วันนี้สรุปมา