AI for IT Operation, Why?

สวัสดีครับ…คุณผู้อ่านทุกคน ยัง Work From Home (WFH) กันอยู่ไหมครับ? ส่วนพนักงาน KBTG อย่างพวกผมก็นั่งทำงานอยู่ที่บ้านมาได้ราวๆ เดือนกว่าแล้วครับ การ WFH ถือเป็นประสบการณ์ที่แปลกใหม่สำหรับตัวผมเองอยู่เหมือนกัน แต่ดีครับดีที่มีงานเข้ามาและมีโจทย์ให้แก้แบท้าทายอยู่เรื่อยๆ ไม่อย่างนั้นผมคงจะมีอาการ Cabin Fever ไปแล้วแน่นอน

เอาล่ะครับ ทักทายกันพอหอมปากหอมคอ เรามาเข้าเรื่องกันดีกว่า

ถ้าคุณผู้อ่าน มองโลกธุรกิจในยุคปัจจุบัน จะเห็นได้ว่าการนำเทคโนโลยีทางด้าน AI (Artificial Intelligence) หรือ ปัญญาประดิษฐ์มาประยุกต์ใช้แก้ปัญหาทางธุรกิจกลายเป็นเรื่องปกติไปแล้วในแทบจะทุกแวดวง ไม่ว่าจะเป็น การเงินการธนาคาร ธุรกิจประกันภัย E-Commerce หรือแม้กระทั่งการให้บริการด้านโลจิสติกส์ นอกจากนี้คำว่า AI ก็เป็นหนึ่งในคำที่ทีมงาน Marketing ชอบนำไปใช้เป็นจุดขายสินค้าและบริการอีกด้วย

แต่ในบทความนี้ ผมขอนำเสนออีกแง่มุมหนึ่งของการใช้ AI ที่ผู้บริโภคทั่วไปดูแล้วอาจจะไม่ตื่นตาตื่นใจเท่ากับกรณีศึกษาที่กล่าวมาข้างต้น แต่ก็ถือได้ว่าจำเป็นมากสำหรับทุกองค์กรที่พึ่งพาระบบ IT ในการดำเนินงานเพื่อส่งมอบสินค้าและบริการ การใช้งานที่ว่านี้ก็คือ การนำ AI มาช่วยแก้ปัญหาต่าง ๆ ที่เกี่ยวข้องกับ IT Operation หรือเรียกสั้น ๆ ว่า AIOps (Artificial Intelligence for IT Operation)

คำว่า AIOps ผมไม่ได้นั่งเทียนคิดขึ้นมาเองนะครับ แต่เป็นคำที่บริษัท Gartner นำเสนอในบAIOps Platform Market Guide” ที่ถูกตีพิมพ์ในปี 2017 ที่ผ่านมา

AIOps (Artificial Intelligence for IT Operation)คือ การนำ AI มาช่วยแก้ปัญหาต่างๆ ที่เกี่ยวข้องกับ IT Operation

แต่ก่อนอื่น ผมอยากให้คุณผู้อ่านลองดูประโยคสมมติเหล่านี้ ผมคิดว่าคุณผู้อ่านที่ทำงานคลุกคลีในวงการ IT น่าจะพอคุ้นเคยกันอยู่

มุมมองจากผู้ใช้บริการ

เปิด Ticket ไปตั้งนานแล้ว แต่ดูสถานะในระบบทีไรก็ยังเห็นเป็น Pending ตลอดเลย

ระบบล่มอีกแล้วเหรอ ทำไมถึงไม่รู้ก่อนล่ะคะ ต้องให้ลูกค้าเป็นคนแจ้งให้ประจำเลย

โอย…พี่ใช้งาน App ของบริษัท A ไม่ได้มาหลายวันแล้ว เมื่อไหร่จะแก้เสร็จสักทีก็ไม่รู้ นี่ว่าจะเปลี่ยนเจ้าแล้ว

มุมมองจากผู้ดูแลระบบ IT

หัวหน้าครับ ไม่ใช่ว่าพวกผมไม่อยากปิดงานให้ลูกค้านะครับ แต่แค่งานเก่าพวกผมก็ทำกันไม่ทันแล้ว คนในทีมก็มีอยู่เท่านี้

เฮ้อ…ต้องทำงานซ้ำๆซากๆแบบนี้เช้าจรดเย็น จะเอาเวลาที่ไหนไปหาความก้าวหน้าล่ะนี่ (ลาออกซะดีไหม?)

คือ…พี่คิดว่าการ Troubleshoot ระบบซับซ้อนขนาดนี้ง่ายหรือครับ T_T

ไม่ว่าจะเป็นองค์กรเล็กหรือใหญ่ จะเป็น Startup หรือบริษัทแบบดั้งเดิม (Traditional Business) พอพูดถึงเรื่องการดูแลระบบ IT แล้ว ยังไงก็ต้องใช้ความสามารถของมนุษย์ในการบริหารจัดการ8/p>

ถ้าจะพูดกันแบบมองโลกในแง่ดี ผมไม่คิดว่าจะมีพี่ๆน้องๆ คน IT ท่านไหน ที่อยากจะทำงานผิดพลาดหรือทำงานที่ส่งผลเสียกับองค์กร แต่ด้วยความที่พวกเราเป็นปุถุชนธรรมดา พวกเราก็ย่อมมีข้อจำกัดของมนุษย์ตามมาด้วย ไม่ว่าจะเป็นความรู้ความสามารถ ความเหนื่อยล้า และภาระอื่นๆมากมายในชีวิตที่เราต้องรับผิดชอบ ทำให้ในบางครั้งเราไม่สามารถทำงานได้อย่างเต็มประสิทธิภาพ

พออ่านมาถึงตรงนี้ บางท่านอาจจะคิดว่า “ก็แก้ไม่เห็นยากหนิ ถ้าปัญหาคือคน ก็หาคนมาเพิ่ม ไม่ก็หาคนใหม่มาทำแทน” ซึ่งวิธีนี้ผมมองว่าอาจจะไม่ใช่ทางแก้ที่ตรงจุด และมีข้อเสียคือ 1. เพิ่มงบประมาณ 2. เราอาจจะเสียคนเก่งๆไป โดยที่เขายังไม่ได้แสดงศักยภาพอย่างเต็มที่

จะดีกว่าไหมครับ ถ้าเราจะใช้เทคโนโลยีซึ่งไม่ได้มีข้อจำกัดเหมือนมนุษย์ มาช่วยสนับสนุนคน IT หลังบ้านในการดูแลรักษาระบบ นี่แหละเป็นหัวข้อที่ผมสนใจและรับผิดชอบอยู่เลยครับ เป็นการนำเทคโนโลยีที่เกี่ยวกับ Big Data, Data Analytics, และ Machine Learning มาใช้กับงานฝั่ง IT Operation โดยผมขอเรียกแบบรวมๆตามสมัยนิยมว่า AI นะครับ (แม้ผมจะรู้สึกว่าคำนี้จะถูกใช้พร่ำเพรื่อไปหน่อย แต่ก็ใช้สื่อสารกับคนอื่นได้เข้าใจง่ายและสะดวกดี)

เป้าหมายหลักของการทำ AIOps ในมุมมองของผมนั้น สามารถสรุปได้อย่างสั้นๆ คือ

การนำ AI มาประยุกต์ใช้ เพื่อให้การบริหารจัดการระบบ IT ขององค์กรสามารถทำงานได้อย่างมีประสิทธิภาพมากขึ้น

ส่วนคำนิยามของการมีประสิทธิภาพที่มากขึ้

ตัวอย่าง Use Case ที่น่าสนใจของ AIOps

  • IT Service as API: คุณผู้อ่านอาจจะเคยเจอปัญหาเวลาติดต่อขอ IT Resources หรือขอ Support จากทีมงาน IT บางครั้งนอกจากจะใช้เวลานานแล้ว ยังต้องมาเหนื่อยใจเวลาที่ต้องติดต่อคุยงานกับผู้คนหลากหลายฝ่ายอีกด้วย การนำ AI มาแก้ปัญหานี้ก็ยกตัวอย่างเช่น เวลาติดต่องานทางด้าน IT ก็ให้ทำผ่าน API ที่มีการออกแบบอย่างชัดเจน และมีความสามารถในการตัดสินใจเองได้ว่า งานไหนที่ไม่ซับซ้อนหรือเป็นงาน Routine ที่มีลักษณะการทำงานที่ชัดเจน ก็สามารถให้ระบบทำการ Support ได้โดยอัตโนมัติ แต่ในส่วนของงานที่ซับซ้อนเกินกว่าที่จะทำ Automation ได้ก็ค่อยให้ระบบส่งต่อไปหาทีมงานที่เกี่ยวข้องดูแลต่อไป
  • Anomaly and Threat Detection: ถึงแม้การทำ Monitoring จะเป็นเรื่องปกติของระบบ IT แต่ด้วยความซับซ้อนของร/li>
  • Proactive of Service Performance and Availability: สำหรับกรณีนี้ จะคล้ายกับกรณีด้านบน ที่มีการทำ Monitoring แต่จะเป็นอีกมุมมองนึง คือให้มีทำการ Forecast โดยอ้างอิงจากข้อมูลของระบบ ไม่ว่าจะเป็