בשנה-שנתיים האחרונות אני נתקל בשאלות בנושא של מערכות “Visibility”. מערכות אלו כבר קיימות הרבה שנים, אבל עקב הקריטיות העולה במערכות מידע, ועקב כך שמערכות הבקרה הסטנדרטיות המבוססות SNMP, Netflow וכד' הפכו כבר לסטנדרטיות, עולה הצורך לעלות לשלב הבא, ויותר לקוחות נכנסים לתחום ה- Network Visibility.
אז על מה מדובר כאן? על מערכות מורכבות מאוד, שבאות לתת לנו נתונים פשוטים והכרחיים לגבי הרשת. בואו נראה איך זה עובד.
מערכת Network Visibility הינה מערכת האוספת נתונים ממספר מקומות ברשת, וזאת על ידי TAPs המותקנים במקומות אלו. בד"כ ה- TAPs יותקנו בכניסה ל- Data Center, ביציאה לסניפים מרוחקים ובנקודות קריטיות אחרות ברשת. ראה שרטוט.
המטרה של מערכת Visibility הינה לכידה של המידע העובר דרך ה- (TAPs (Test Access Points, ניתוח המידע, ומתן תוצאות של ניתוח המידע. אפשר להשוות מערכות מסוג זה להפעלה של Wireshark במספר מקומות ברשת, איסוף המידע וביצוע אנליזה חכמה של המידע.
הטופולוגיה של מערכת מסוג זה הינה של TAPs המחוברים במקומות קריטיים ברשת, למשל בכניסה ל- DC, ביציאה לאינטרנט, בקישור לסניפים מרוחקים וכד', איסוף המידע ליחידה שנקראת (בד"כ, זה שם שיווקי ולא מתוך תקן מסוים) Packet Broker, והצגת המידע באפליקציה שמבצעת את ניתוח הנתונים.
Application/Network Performance Monitoring:
בנוסף ל- Network Visibility, ישנם שני מושגים נוספים שתתקלו בהם:
- NPM – Network Performance Monitoring
- APM – Application Performance Monitoring
NPM (לא האפליקציה של Solarwinds שזה משהו אחר!) מטפל בזיהוי תקלות רשת כמו עומסים, צוורי בקבוק,, זמינות, תופעות של TCP כגון Retransmissions, Windows events, Resets וכד'. מערכות APM נכנסות גם לרמת האפליקציה ויתריעו על זמני תגובה איטיים באפליקציות השונות, למשל זמני תגובה איטיים ב- RPC, קריאות שלא נענו ל- DB וכד'.
מה נקבל מהמערכת:
ממערכות Visibility נקבל נתונים על כמות Retransmissions, כמות TCP Connections שהצליחו/נכשלו, ותלוי ברמת המערכת גם מה הסיבה לכך, כמות ה- Hosts הפעילים וכמות התנועה שהם מיצרים, איזה Services פעילים ובין איזה מחשבים (נתון שנוכל גם לקבל מ- NetFlow למשל), שרתים ושירותים שחשודים כאיטיים, וכתלוי ברמת המערכת גם מה הסיבה לכך, תופעות של איטיות ( TCP Zero Window וכד') ומהיכן הן מגיעות ועוד.
במערכות Visibility עם יכולות לניטור ביצועי אפליקציות (APM) נראה גם זמני תגובה של אפליקציות, למשל זמני כתיבה ל- DB, זמני תגובה של DNS וכד'.
ככל שהמערכת מתקדמת יותר, נוכל למשל לאסוף נתונים ממספר נקודות (ממספר TAPs ברשת), ואם יש Delay או Packet Loss במקום מסוים אז נוכל לראות למשל Retransmissions שקורים עקב זמן מעבר איטי דרך רשת מסוימת וכד'.
האם אנחנו צריכים את זה, ואם כן אז מה צריכים?
מערכות Visibility הן לא מערכות זולות. יש אמנם מעכות רבות בשוק, למשל NetScout עם nGeniusONE, IXIA ורבות אחרות (https://blog.profitbricks.com/application-performance-management-tools/ למשל מביא לא מעט דוגמאות).
יש מערכות המבוססות על TAPs כמו אלו שהוזכרו כאן, יש כאלה עם Agents יעודיים שנותנים תכונות נוספות אבל בד"כ ללא Packet Analysis, ועוד. כשבאים לבחור מערכת חשו בלהגדיר מה צריך, מה רוצים לראות ולפי זה להחליט.
חשוב גם להגיד כי לא מעט נתונים אפשר לקבל גם באמצעות מערכות מבוססות SNMP סטנדרטי, באמצעות NetFlow/SFlow וכד'. מערכות Visibility מיועדות לתת יותר – הן מיועדות לתת Analysis של הרשת, ומערכת מומחה שתנתח את הבעיות ותגיד לנו מהיכן הן נובעות, ולא רק סטטיסטיקות.
האם זה כדאי? מערכות Visibility הן מערכות לא זולות. תוכנה תעלה מינימום כמה עשרות אלפי דולרים, TAPs עולים עוד 10-15K$ מינימום לקופסא עם 12-24 מבואות (כניסה, יציאה וניטור), ואז גם יש רישוי לתוספות כמו איתור Duplicates (אם מנטרים מעבר של Packet במספר מקומות אז נראה כפילויות, ולבטל את זה יש מנגנון שנקרא Deduplication או בקצרה Dedup. יש גם אפשרות לתוספות לאיתור בעיות אבטחת מידע, תוספות לפרוטוקולים ועוד.
לסיכום, מדובר במערכות מאוד חכמות, לא זולות, ולא מערכות "קסם". גם כאן לא נימלט מהצורך להבין את מה שרואים, ולוודא שהגדרנו נכון את המערכת. והיה וכל זה נכון, וזמן השבתה של הרשת יקר יותר ממחיר רכישה של מערכת Visibility בנוסף למערכות הקיימות, אז זה כדאי. לא בכל מחיר, ולוודא גם מה מקבלים.