Data Scientist คืออะไร? ทำไมถึงสำคัญ?

Why It Matters EP3

สารบัญ

สรุปสั้น

1. Data Scientist คืออะไร

Data Scientist คือคนที่เอา data มาทำกระบวนการทางวิทยาศาสตร์เพื่อให้เกิดผลลัพธ์บางอย่าง

2. ทำไม Data Scientist ถึงสำคัญ

– วิธีการนำ data มาใช้จะต้องมีวิธีการที่ถูกต้อง เปรียบเสมือนการที่เรามีวัตถุดิบที่ดี ก็ต้องมีเชฟมาทำให้อร่อย

3. คุณสมบัติที่เหมาะสำหรับการเป็น Data Scientist

*1. ความรู้ด้านสถิติหรือตัวเลข

*2. ความรู้เรื่อง programing หรือ coding

*3. ความรู้ด้านธุรกิจหรือ domain ที่เราจะไปทำ

4. ถ้าอยากเริ่มต้นเป็น Data Scientist ต้องทำยังไง

*1. บังคับตัวเองให้เรียนรู้

*2. หาโค้ชที่ดี ที่สามารถสอนให้เราสามารถนำหลักการไปประยุกต์ใช้ได้


1. “Data Scientist” คืออะไร

– Data คือ ข้อมูล ส่วน scientist คือนักวิทยาศาสตร์ การที่เราเอา data มาใช้ด้วยกระบวนการทางวิทยาศาสตร์ สามารถพิสูจน์ วิเคราะห์ หรือชี้วัด แต่ส่วนใหญ่ Data Scientist พอมีการต้องการ coding หรือสถิติต่างๆ ทางวิทยาศาสตร์มันก็จะไปเกี่ยวข้องกับคำว่า machine learning, AI ทำให้คนชอบนึกถึงคำนี้ด้วยเวลาคิดถึง Data Scientist

– มีหลายๆ บริษัทที่ตำแหน่งงานใช้คำว่า Data Scientist แต่สิ่งที่ทำจริงๆ คือการดึงข้อมูลออกมาเฉยๆ บางทีไม่เคยทำโมเดล หรือ machine learning ซึ่งบางทีจะเรียกว่าว่า data admin หรือบางทีเรียก data analyst หรือนักวิเคราะห์ข้อมูลแต่ require SQL ซึ่งไม่ต่างกับ data scientist ต้องบอกว่าชื่อไม่ได้ represent ทุกอย่าง

– สำหรับในมุมมองผมที่ทำงานและรับคนด้านนี้มา คือคนที่เอา data มาเพิ่มมูลค่าให้กับบริษัทโดยผ่านกระบวนการที่เป็น advance analytics คือต้องเขียนโค้ด ใช้ตัวเลขเข้ามาช่วย แต่ว่างานทั้ง 100% อาจจะไม่จำเป็นต้องใช้ท่ายาก ไม่ต้องใช้ AI, machine learning บางโปรเจคเอาคณิต ม.ปลาย มาก็แก้โจทย์ได้

– ไม่ได้จำกัดตัวโปรแกรมหรือภาษา มันเป็นแค่ tool ที่ทำให้เราไปถึงเป้าหมาย ต่อให้เราเขียนโค้ดไม่เป็น แต่ใช้ tool ทำ data mining หรือ machine learning พอเป็น ก็สามารถเรียกว่าเป็น Data Scientist ได้แล้วเหมือนกัน แต่อาจจะเป็นระดับ begninner หรือ intermediate ถ้าระดับสูงขึ้นไปอาจจะต้องการ coding ที่ซับซ้อนขึ้น แต่ไม่ทุกองค์กรที่จะต้องการ data scientist ระดับ advance ขึ้นไป

– บางทีก็เห็นบางบริษัทต้องการ Data Scientist ในระดับปริญญาเอก ซึ่งอาจจะสูงเกินไปในบางครั้ง ด้วยความที่เป็นอาชีพที่ใหม่คนอาจจะยังไม่เข้าใจ บางครั้งก็มีบางตำแหน่งที่คล้ายๆ กัน แต่ไม่ถูกระบุว่าเป็น Data Scientist หรือมีหลายบริษัทก็จ้าง Data Scientist ไปเพื่อแค่ภาพลักษณ์ หลายคนจ้างโดยที่ไม่รู้ว่าจ้างไปทำอะไรหรือเพื่ออะไร

– จุดเริ่มต้นก่อนที่จะมี Data Scientist ควรมีการเก็บ data ให้เหมาะสมก่อน เพราะถ้าไม่มี data แล้วจ้าง Data Scientist มา ก็เหมือนการจ้างพ่อครัว แต่ไม่มีวัตถุดิบอาหารให้

– การที่จะตั้งทีม data ขึ้นมาหนึ่งทีมควรมี infrastructure ในการเก็บ data ทั้ง database กระบวนการเก็บข้อมูล การดึงข้อมูลต่างๆ บางที่ไม่มีระบบเก็บข้อมูลที่ดี หรือบางทียังใช้เป็นกระดาษ อาจจะต้องจ้างคนที่มาทำพวกพื้นฐาน เหมือนมาเตรียมวัตถุดิบให้เราก่อน แล้วค่อยจ้าง Data Scientist หรืออาจจะเป็นนักวิเคราะห์ข้อมูลทั่วไปมาก่อน

2. ทำไม Data Scientist ถึงสำคัญ

– บางคนก็ไม่ชอบ data ไม่ใช่ทุกคนจะเกิดมาเพื่อทำ data ที่เราเคยพบมาจากคนรอบข้างคือ ส่วนใหญ่คนที่ทำงาน marketing หลายๆ คนไม่ค่อยชอบตัวเลข ข้อมูลที่เราเก็บทางวิทยาศาสตร์ ก็ต้องมีพวกตัวเลข สถิติ มีการใช้เรื่องพวกนี้เข้ามาช่วย ยกตัวอย่าง เช่น สถิติที่เราใช้บ่อยที่สุด คือ mean (ค่าเฉลี่ย) ไม่ใช่ทุกชุดข้อมูลที่เราจะใช้ค่าเฉลี่ยได้ทุกครั้ง ข้อมูลแต่ละชุดอาจจะมีหน้าตาแตกต่างกัน แต่มีค่าเฉลี่ยเท่ากัน ถ้าดูข้อมูลแยกแล้วจะรู้เลยว่าจริงๆ แล้ว ข้อมูลไม่เหมือนกันเลย

– สมมุติมีคนในห้องอยู่ แล้วเราสำรวจอายุ มีคนอายุ 15 อยู่สิบคน ค่าเฉลี่ยก็จะคือ 15 ทีนี้พอเอาคุณย่าอายุ 80 เข้ามาเป็นสิบเอ็ดคน ค่าเฉลี่ยก็จะกลายเป็น 21 ถ้าเราดูแต่ค่าเฉลี่ยจากเด็กมัธยมก็จะกลายเป็นนึกว่าคนกลุ่มนี้เป็นกลุ่มคนจบมหาลัยที่ทำงานแล้ว ภาพกลุ่มประชากรเปลี่ยนเลยทั้งๆ ที่มีคนอายุ 80 เข้ามาคนเดียว เอาหลักสถิติพื้นฐานมาใช้ว่า ในกรณีนี้เราไม่ควรเอาค่าเฉลี่ยถ้าเราจะเอาคุณยายคนนี้เข้ามาด้วย ซึ่งคุณยายคนนี้ภาษาทางสถิติเรียกว่า outliner หรือค่าที่มันสุดโต้งในชุดข้อมูล

– หรืออีกกรณีเช่น ถ้าในห้องมีแต่หลานที่เด็กมากๆ กับคุณยายที่แก่มากๆ ถ้าดูแต่เฉลี่ยก็จะออกมาเป็นว่าคนที่อยู่ในห้องเป็นคนอายุกลางๆ 40 ปี ซึ่งแบบนี้ก็จะได้ข้อมูลที่ผิดเพี้ยน

3. คุณสมบัติสำคัญของคนที่จะเป็น Data Scientist

– ถ้าทฤษฎีทั่วไปคุณสมบัติของ data scientist ที่ดีจะมีอยู่สามอย่าง คือ

*1. ความรู้ด้านสถิติหรือตัวเลข

*2. ความรู้เรื่อง programing หรือ coding

*3. ความรู้ด้านธุรกิจหรือ domain ที่เราจะไปทำ เช่น ความรู้ด้าน banking, retail

– แต่คนที่มีทั้งสามอย่างจริงๆ หายาก Data Scientist จริงๆ จบอะไรมาก็ทำได้ แต่ขึ้นอยู่กับว่าคุณจะไปเรียนรู้สกิลอะไร สมมุติจบ IT มา บางคนอาจจะมีปัญหาเรื่องการสื่อสาร หรือบางคนเขียนโค้ดเก่งแต่ก็ไม่ชอบเลข หรือบางคนมาจากสาย business ก็ไม่ได้ coding ตั้งแต่แรก คือเริ่มมาจากด้านใดด้านหนึ่งก่อน

– นอกจากนี้ยังมีพวก soft skill การพรีเซนต์ การเล่าเรื่องให้เข้าใจง่าย

4. ถ้าอยากจะเป็น Data Scientist ควรเริ่มต้นยังไง

*1. บังคับตัวเองให้เรียนรู้

– สมัยนี้เปิดเว็บอะไรก็มีคอร์สสอน Data Scientist เนื้อหามีให้เรียนเยอะแยะ แต่ที่สำคัญคือจะทำยังไงให้เราบังคับตัวเองให้เรียนได้

*2. ต้องหาโค้ชที่ดี

– บางคอร์สที่สอนเป็นแบบชุดข้อมูลที่เตรียมมาให้สำเร็จรูปแล้ว แต่ในโลกการทำงานจริงๆ มันไม่ได้ง่ายแบบนั้น การเป็น Data Scientist ที่ดีต้องรู้จักการวิเคราะห์ เปรียบเสมือนแพทย์ที่ต้องวิเคราะห์คนไข้ได้ เช่น ถ้า marketing เขาอยากใช้ machine Learning เราต้องวิเคราะห์ต่อว่า จริงๆ แล้ว เขาอยากเอาไปทำอะไร เพราะบางทีมันอาจจะไม่ต้องใช้ถึง machine learning ใช้แค่การดึงข้อมูลออกมาก็ทำได้ ต้องวิเคราะห์ปัญหาที่เขามีคืออะไร แล้วสิ่งที่เขาต้องการมันแก้ปัญหาของเขาจริงๆ หรือเปล่า เป็นสกิลที่สำคัญมากๆ ซึ่งส่วนใหญ่พวกคอร์สออนไลน์บางทีจะไม่ได้สอน เพราะอาจจะเป็นสิ่งที่จะต้องเรียนรู้จาก on the job training

– coding จริงๆ บางทีเราฝึกกันเป็นปี บางคนไปลงคอร์สแค่สามวัน ซึ่งพวกนี้บางทีมันเป็นแค่ introduction ต้องเอาความรู้พวกนี้มาฝึก ถ้าคุณมีโค้ชที่ดีเขาจะสอนเราว่าการทำงานแบบนี้ควรใช้แนวคิดแบบไหน อะไรแบบนี้ หลายๆ ที่ไม่สอน อาจจะเพราะด้วยข้อจำกัดด้านเวลา หรือ use case อาจจะต้องเห็นหน้างานจริงๆ ถึงจะเจาะจงได้ เหมือนยาพารา มันไม่ได้ใช้ได้กับทุกโรค ถึงอาจจะช่วยแก้ปวดหัว แต่ไม่ได้แก้ที่ต้นเหตุของโรคได้จริงๆ

ช่วง Q&A

Q1: ถ้าจะเริ่มศึกษาเกี่ยว Data Scientist วันนี้จะยังทันไหม เนื่องจากเทคโนโลยีมันก้าวเร็วมากๆ

– มีหลายๆ คอร์สที่อาจจะ outdate ไปแล้ว แต่สำหรับ Data Scientist โดยพื้นฐานยังไม่ได้มีอะไรที่เป็น major change เรายังสามารถเรียนคอร์ส 2019-2020 ได้อยู่ อย่าง Phyton ก็ยังเรียน logic และทฤษฎีเดิมได้อยู่ มีบางอันที่พัฒนาเข้ามา แต่พื้นฐานยังใช้ได้อยู่

– แต่ปัญหาคือ Junior Data Scientist เริ่มเขามาในตลาดเยอะขึ้น เหมือนที่ Harvard Business Review เคยตีพิมพ์ว่า Data Scientist เป็นอาชีพที่ sexy ที่สุด ทำให้คนสนใจและเข้ามาเยอะขึ้นมาก มีหลายๆ คนที่เร่งตัวเองเข้ามา จากที่ผมสังเกตคนที่จะ growth แบบก้าวกระโดดส่วนใหญ่จะเป็นคนที่มีประสบการณ์มาระดับหนึ่ง ก็ต้องรีบฝึกสกิล ทำตัวเองให้แตกต่าง เพราะคู่แข่งเยอะ

Q2: อยากรู้ว่าส่วนใหญ่ในบริษัทใช้โปรแกรมไหนกันเยอะที่สุด

– เรื่องโปรแกรมแล้วแต่ความถนัด ทั้ง R และ Python ได้หมด หลังๆ R ก็เริ่มทำอะไรที่ Python ทำได้ ใช้งานได้ง่ายขึ้น แต่เคยถามพี่ป๋อง กรกฎ เป็น Research AI เบอร์ต้นๆ ของเมืองไทย เขาแนะนำว่ายังไงก็ต้องเรียน Python เพราะมันเป็น generalist โปรแกรม ใช้เขียนเกมหรืออะไรก็ได้ แต่ถ้ามาสาย R ก็ได้ไม่ผิดเหมือนกัน แล้วแต่เลย

Q3: เวลาอยู่ในบริษัท output ของ Data Scientist ออกมาในรูปแบบไหน

– แล้วแต่บริษัท มีสองสาย

*1. สาย business เป็น Data Scientist ที่ไปช่วยทำโปรเจค marketing, sales ผลลัพธ์บางทีก็ออกมาเป็น dashboard บางทีก็ต้องทำระบบเพื่อไปวางให้ sync อัตโนมัติ

*2. สาย technology เช่น พวกทำรถ tesla, ทำ face recogition พวกนี้ก็อาจจะไม่ต้องใช้ business แล้ว แต่ต้องมีความรู้ในด้านการดึงรูปภาพ ดึงวิดีโอ

– สมมุติเคสที่ว่าเราควรโทรไปขายโปรดักลูกค้าเวลาไหนดี เช่น เคสทวงหนี้ เราโทรไปหาลูกค้าได้แค่วันละครั้ง ถ้าโทรแล้วไม่รับสายก็คือหมดสิทธิเลย แล้วจะโทรยังไงที่ลูกค้ามีโอกาสจะรับสายที่สุด ผมก็ทำ machine learning ขึ้นมาหนึ่งตัว เพื่อวิเคราะห์ว่าควรโทรช่วงไหนดี สมมุตินาย A ควรโทรไปช่วงเช้าเสาร์อาทิตย์ output ที่ออกมาก็จะเป็นชื่อลูกค้ากับเบอร์โทร เด้งไปให้ call center ที่ทำในช่วงเวลานั้นๆ แล้วแต่ว่าเราจะเอาข้อมูลนั้นไปใช้กับระบบไหน หรือบางทีเราก็ทำออกมาเป็นพรีเซนต์ powerpoint ให้ marketing เห็นภาพ โดยใช้ข้อมูลจากในบริษัทมา analyze

Q4: มีเคสที่เราทำแล้วข้อมูลไม่พอ แล้วต้อง request ให้บริษัทไปเก็บเพิ่มไหม

– หลายที่เก็บข้อมูลมาไม่พอ ก็ต้องช่วยเขาคิดว่าเราต้องการข้อมูลแบบไหน หลังๆ ก็จะมาอาชีพ Data Strategy คล้ายๆ project manager เกิดขึ้นมาเพื่อใช้ในการวางกลยุทธ์ในเรื่อง data

Q5: มีเส้นแบ่งไหมว่าข้อมูลเยอะขนาดไหน ถึงจะต้องใช้ Data Scientist

– แล้วแต่ จริงๆ โดยพื้นฐาน ถ้าต้องทำ advance analytic เช่น predictive ต้องจ้าง แต่ถ้าอะไรง่ายๆ ก็ไม่ต้องจ้าง แต่ Data Scientist สามารถทำได้หมด บางทีคำว่า Data Scienitst อาจจะทำให้หลงทางไม่อยากให้ติดกับคำนี้

Q6: SME สามารถเอาความรู้ของ Data Scientist ไปปรับใช้ได้ยังไงบ้าง

– มีเคสขายน้ำพริก มีลูกค้าร้อยคน เก็บข้อมูลไว้ก่อน ถ้าวันนึงเรามีเยอะอาจจะมีประโยชน์ หรืออาจจะเจอ insight ใน 100 คน เช่น เพศ พื้นที่ที่เราส่ง อยู่เขตไหน ทำไมโซนนั้นเขาถึงสั่งเยอะ แต่ละพื้นที่สั่งรสไหน ต่อให้เป็น SME รายเล็กแค่ไหน พอเอามาดูบางทีมันก็อาจจะไม่เห็น แต่ถ้ามันเห็นขึ้นมาละ เราอาจจะเจออะไรใหม่ๆ ก็ได้ แบบนี้น่าลอง

Q7: Data Scientist จำเป็นต้องสร้างอะไรใหม่ๆ ไหม

– ไม่จำเป็น แล้วแต่บริษัท จุดสำคัญคือสิ่งที่ทำต้องตอบโจทย์หรือสร้างเงินให้บริษัทได้

– ยกตัวอย่างเช่น การนำข้อมูลมาช่วยในการตัดสินใจเปิดสาขาใหม่ๆ ของร้านค้า เช่นดูจาก POI (Point of Interest) ว่าสาขาที่ขายดี ต้องอยู่ในเขตชุมชนไหน ต้องใกล้สถานที่อะไร ห่างจากอะไร ซึ่งถ้าเราเอาข้อมูลตรงนี้มาวิเคราะห์ในการช่วยเลือกตัดสินใจที่ตั้งของสาขา อาจจะช่วยยอดขายได้ถึง 40-50% เทียบกับคนที่เปิดสาขาใหม่โดยไม่มีข้อมูล

Q8: เกณฑ์ในการเลือกรับคนเข้าไปทำงานเป็น Data Scientist

– ผมดูที่ความตั้งใจ มีรับน้องคนหนึ่งจบบัญชีมา ไปเรียนเขียนโค้ดมา ไม่ได้ทำโมเดลได้ลึก แต่เราเห็นความตั้งใจ เห็น passion เห็นการเรียนรู้ที่ทำการบ้านมาเยอะ

Q9: คุณบุ๊คเรียนด้านจิตวิทยามาก่อน ทำไมถึงย้ายไปสาย Data Scientist ได้

– จบจิตวิทยาแต่ไม่เคยทำงานสายจิตวิทยาเลย เริ่มมาจากทำสาย broker หุ้นก่อน พอถึงจุดนึงรู้สึกว่ามันเป็น red ocean เลยลองค้นหาตัวเอง ไปเรียนต่อโท marketing แล้วไปเจออาจารย์คนนึงมาเล่าเรื่อง Data Scientist สอนวิธีการดึงข้อมูลจากเว็บไซต์และมาทำโมเดล รู้สึกชอบเพราะว่ามันดูเป็นวิทยาศาสตร์ มีสิ่งที่พิสูจน์เป็นตัวเลขได้จริง เลยไปต่อโทด้านนี้อีกใบ

– ไม่ว่าจะเรียนสาย coding มาหรือไม่ ไม่ได้เป็นจุดอ่อนเลย ส่วนใหญ่ในทีมที่รับมา ก็จะค่อนข้างหลากหลาย

ฝากส่งท้าย

– อยากให้มอง Data Scientist เป็น tool เราเป็น marketing เราก็สามารถไปเรียน basic data scientist เพื่อที่จะเข้าใจ ไม่จำเป็นต้องเปลี่ยนสายก็ได้ แต่อยากให้มองว่าเราอยากจะมาทำ data scientist เพื่ออะไร บางทีเราอยู่ในสายงานตัวเอง เช่น marketing แล้วได้ data science ด้วย เดี๋ยวนี้ก็จะมีสายใหม่ๆ เช่น Marketing Scientist หรือ HR Analytics ถ้าคุณอยู่ในสายตัวเองและทำสกิลอื่นได้ด้วย ก็จะช่วยทำให้คุณเติบโตได้


รายละเอียด

Date: 24 APR 2021 (20:00-21:00)

Speaker: คุณบุ๊ค (Data Scientist และเจ้าของเพจ Data ภาษาคน)

Morderator: พี พนิต (วันนี้สรุป..มา)


#Clubhouse #ClubhouseTH #ClubhouseThailand #WhyItMatters #ทำไมถึงสำคัญ #EP3 #DataScientist #Dataภาษาคน #todayinotetoevent #todayinoteto #วันนี้สรุปมา