14:22. ראית בעדות 3 התייחסות ל"מוחמד אבו־חאלד" כעד מרכזי. אתה זוכר שהשם הזה הופיע בעדות 7 בהקשר אחר. ניסית Ctrl+F על כל ה־47 קבצי ה־PDF. הוא חוזר ב־5 קבצים. נראה לא הגיוני — אתה זוכר שראית אותו לפחות 10 פעמים.
פתחת את עדות 7 ידנית. מצאת אותו. רק שהוא כתוב שם "מחמד אבו חאלד" — בלי הואו, בלי המקף. בעדות 12 הוא "מ.א.ח.". בעדות 21 כתוב עם ניקוד מלא: "מֻחַמַּד אַבּוּ־חַ׳אלֶד". Ctrl+F רואה ארבעה דברים שונים. הוא צודק — מבחינתו זה כך.
הבעיה היא שזה אותו אדם, וזה לא מקרה של איש אחד עם שם קשה. זה דפוס שחוזר בכל שם, בכל מקום, בכל מספר מוצג שאתה רוצה לעקוב אחריו על פני התיק.
ארבע הסיבות ש־Ctrl+F בעברית מתסכל
1. סריקה במקום טקסט
רוב המסמכים המגיעים מנט המשפט הם תמונות של עמודים, לא טקסט. אין מה לחפש בהם — Ctrl+F רואה תמונה ומחפש בשם הקובץ. הפתרון הבסיסי הוא OCR (זיהוי אופטי של תווים), אבל OCR גנרי שלא אומן על עברית משפטית מחזיר 70-80% הצלחה. זה מספיק שתפספס את האזכור הקריטי.
2. ניקוד מתלבש על אותיות
מסמכים ישנים, חוות דעת אקדמיות, מזכרי תרגום — מנקדים. המילה "מוחמד" עם ניקוד מלא היא רצף תווים שונה מהמילה "מוחמד" בלי ניקוד, אפילו שלעין הם זהים. ה־Unicode מוסיף תווי ניקוד אחרי האות. Ctrl+F לא מנרמל את זה אוטומטית.
3. כתיב מלא מול חסר, אחיד מול לא־אחיד
"מוחמד" עם ואו, "מחמד" בלי. "אבו־חאלד" עם מקף, "אבו חאלד" ברווח, "אבוחאלד" צמודים. כל גורם חקירה מתרגם את השם אחרת. אין סטנדרט. Ctrl+F לא מבין שזה אותו אדם — הוא רק רואה רצפי תווים שונים.
4. גרשיים, מרכאות וצורות סוף
ראשי תיבות עם גרשיים: "מ"א מקצועי" (גרש אחד) מול "מ״א מקצועי" (גרשיים יוניקודיים) מול "מ'א מקצועי" (גרש מאופן אחר). אותיות סופיות (ם, ן, ץ) שלא תמיד מוגדרות באותו רצף בייטים. בעיני המשתמש אלה אותם תווים. ל־PDF reader זה לא.
שלוש שכבות של חיפוש שבאמת עובד
חיפוש על PDF עברי שעובד הוא לא כלי אחד — זה שלוש שכבות שעובדות יחד. כל שכבה תופסת סוג שונה של התאמה, וכל תוצאה מסומנת לפי הסוג שלה כדי שתוכל לדעת איזו ראיה יש לך ביד.
שכבה 1 · חיפוש טקסט מנורמל
לפני שמחפשים, כל הטקסט מנורמל: ניקוד מוסר, גרשיים מאוחדים, רווחים מיותרים מנוקים, אותיות סופיות מאוחדות עם הצורה הרגילה. ה־Ctrl+F המסורתי, רק נכון. תופס את ההתאמות המדויקות שתפסת ידנית — מהר ובלי החטאות.
שכבה 2 · התאמת ישויות
המערכת מזהה ש"מוחמד אבו־חאלד" ו"מחמד אבו חאלד" ו"מ.א.ח." הם אותו אדם. זה לא רק חיפוש "fuzzy" — זה הבנה ש"אבו" הוא קידומת, ש"חאלד" יכול להיכתב "ח׳אלד", וש־"מ.א.ח." הוא ראשי תיבות שהיו "מוחמד אבו חאלד" בעמוד 3 של אותו מסמך. גם למקומות, גם לזמנים, גם למספרי מוצג, גם לתאריכים.
שכבה 3 · חיפוש סמנטי
לפעמים האזכור לא משתמש בשם בכלל. "הנחקר הראשון ביום שני התעקש שלא היה ליד החנייה" — בלי שם. שכבה 3 מחפשת לפי משמעות: השאלה "מתי החשוד הכחיש נוכחות בחנייה" תחזיר את המשפט הזה גם בלי שהשם או הביטוי "כחש" יופיעו. זה רובד הרמז — לא ודאות, אבל מספיק כדי לפתוח חקירה.
שלוש השכבות רצות יחד. תוצאה אחת יכולה להגיע משכבה 1 (התאמה מדויקת אחרי נירמול), שכבה 2 (אותו אדם בכתיב שונה), או שכבה 3 (משמעות דומה). כל תוצאה מסומנת — ירוק = ודאות, כתום = התאמת ישות, כחול = רמז סמנטי. אתה מחליט לאיזה רובד להתייחס.
איך זה נראה על תיק 4217/26
תיק 4217/26, חיפוש: "מוחמד אבו־חאלד". 5 תוצאות חוזרות.
שתי תוצאות "טקסט מלא" — Ctrl+F היה תופס אותן. שתיים "התאמת ישות" — Ctrl+F היה מפספס (האחת בגלל ניקוד, השנייה בגלל כתיב חסר). אחת "סמנטית" — Ctrl+F בכלל לא היה רואה את זה (העדות מתייחסת ל"הנחקר", לא לשם).
לחיצה על כל תוצאה פותחת את ה־PDF המקורי בעמוד הנכון, עם הדגשה על השורה. אתה רואה את ההקשר המלא — לא מסתמך על הציטוט הקצר.
מתי זה לא שווה
אם יש לך מסמך אחד של 10 עמודים — Ctrl+F של ה־reader שלך יספיק. אם ה־PDF הוא כתב יד מ־1990 — שום OCR בעולם לא יחזיר את זה. אם הנחקר הוא דמות יחידנית עם שם נדיר ולא יכול להופיע בכתיבים שונים — גם Ctrl+F יספיק.
התשואה מתחילה כשיש 5+ מסמכים, ריבוי גורמי חקירה, ושמות או ישויות שמופיעות בכמה כתיבים. ככל שהתיק גדל, הפער בין Ctrl+F לבין שלוש השכבות הופך לדרמטי.
שאלות נפוצות
מה ההבדל בין חיפוש סמנטי לחיפוש טקסטואלי?
חיפוש טקסטואלי מוצא את האותיות המדויקות (מותאם להבדלים בכתיב). חיפוש סמנטי מוצא לפי משמעות — "הרכב עזב לכיוון דרום" יחזיר גם "הוויטו נסע דרומה". שניהם רצים בו זמנית; הראשון לרובד הוודאות, השני לרובד הרמז.
האם החיפוש עובד על סריקות באיכות נמוכה?
כן, עד גבול מסוים. סריקה ברורה בשחור־לבן או צבע — OCR יזהה 95%+ מהטקסט. סריקה מטושטשת או כתב יד — OCR יחזיר חלקית, ויסומן ככזה בתוצאות החיפוש כדי שלא תסתמך עליו אקראית.
כמה זמן לוקח חיפוש על תיק של 1,000 עמודים?
פחות מ־2 שניות. האינדוקס נעשה פעם אחת בעת ההעלאה (כדקה ל־100 עמ׳), ואחרי זה כל חיפוש מיידי. גם חיפוש סמנטי, שדורש קצת יותר עבודה, חוזר תוך פחות מ־3 שניות בתיק רגיל.
תקליד "מוחמד אבו־חאלד" בתיק 4217/26
5 תוצאות מ־3 גורמי חקירה שונים, בכתיבים שונים, מחולקות לפי סוג ההתאמה. בלי הרשמה. אפשר גם לקרוא איך מארגנים תיק של 1,200 עמ׳ על אותו תיק.
לדמו ←