יום שני, 09:14. רינה — שכבר 21 ימים במעצר — שולחת לך הודעה מהמשרד של הסניגוריה: כתב האישום הגיע, ובו 62 קבצי PDF על 1,184 עמודים. הדיון בעוד 11 ימים.
אתה פותח את הצרור: שלושה דוחות פעולה, שני מזכרי שרשרת מוצג, ארבעה תמלולי חקירות, חוות דעת רואה חשבון, מזכרי שוטרים תורניים — ועוד 52 קבצים. כל אחד מ־5 גורמי חקירה שונים. חלק סרוקים בשחור־לבן באיכות בינונית, חלק טקסטואליים נקיים. שמו של הנחקר הראשי מופיע ב־4 כתיבים שונים. מצלמה 3 מוזכרת בשני דוחות נפרדים, בזמנים שונים.
יש לך 11 ימים לקרוא את הכל ולמצוא את הנקודה שתשבור את האישום.
מה זה אמור להיראות
תיק חקירה שאפשר לעבוד עליו הוא תיק שאתה לא קורא מהתחלה לסוף — אתה שואל אותו. שואל אותו על אדם, על מקום, על זמן, על מספר מוצג, על ניסוח מסוים. ומקבל תשובה תוך שניות, עם הפניה מדויקת לעמוד שבו זה כתוב.
זה דורש שלושה דברים שעובדים יחד:
- אינדקס מאוחד — כל 62 ה־PDF נסרקים פעם אחת, באופן אוטומטי, וההתוצאה היא מבנה אחד שאפשר לשאול אותו. לא 62 קבצים נפרדים שצריך לדפדף ביניהם.
- זיהוי ישויות אוטומטי — המערכת מבינה ש"מוחמד אבו־חאלד" ו"מחמד אבו חאלד" ו"מ.א.ח." הם אותו אדם, וקושרת בין כל האזכורים שלו על פני כל המסמכים. כך גם למקומות, לזמנים, ולמספרי מוצג.
- ציטוט מאומת לעמוד — לכל תשובה מצורף שם הקובץ, מספר העמוד, ושורה מצוטטת מתוך המסמך עצמו. אתה לוחץ עליה, ה־PDF נפתח באותו עמוד עם הדגשה. אין הזיות, אין ניחושים — או שיש מקור או שאין תשובה.
התוצאה: ה־11 ימים שלך עוברים מ"קריאה" ל"תחקיר". במקום לעמוד מול ערימה, אתה רץ על השאלות שבאמת חשובות.
איפה זה נשבר ידנית
הסיבה ש־Ctrl+F לא פותר את הבעיה היא לא חוסר מזל. זה מבני. שלוש נקודות שבירה חוזרות בכל תיק:
- סריקה במקום טקסט. רוב המסמכים בתיקי חקירה ישראליים מגיעים כסריקות — תמונה של דף, לא טקסט. ה־Ctrl+F של ה־PDF reader לא רואה את האותיות. בלי OCR איכותי על עברית הקובץ הוא תמונה ולא מסמך. תמונה לא נחפשת.
- ניקוד, גרשיים וכתיב לא עקבי. שוטר אחד כותב "מוחמד", שני כותב "מחמד", שלישי משתמש בקיצור "מ.א.ח.". במזכרים ישנים יש ניקוד; במזכרים חדשים אין. Ctrl+F רואה ארבעה דברים שונים. הוא צודק — מבחינתו זה כך. הבעיה שזה אותו אדם.
- ז'רגון פנימי לכל גורם חקירה. יחידת ההאזנה מסמלת קבצים ב־"H־
שנה־ יחידה־ מספר". יחידת השדה ב־"דו"ח־ תאריך־ שעה". המעבדה הפלילית ב־"מ.פ.־ מס׳ פריט". אתה צריך לזכור איזה גורם השתמש באיזה סימול — או לבזבז זמן כל פעם שמדפדפים בין מסמכים.
כל אחד מאלה לחוד אפשר לעבור. שלושתם יחד על תיק של 1,184 עמ׳ עם 11 ימים — זה השעות שלא חוזרות.
איך זה עובד בפיזי על תיק 4217/26
תיק 4217/26 בדמו שלנו: 62 מסמכים, 1,184 עמודים, 5 גורמי חקירה. ככה זה זורם.
גוררים את כל 62 הקבצים לדפדפן. הוא לא חוסם — ההעלאה רצה ברקע, אפשר להתחיל לעבוד על קובץ בודד תוך שניות.
כל עמוד עובר OCR עברי. כל ישות (שם, מקום, זמן, מספר מוצג, ת.ז., כתובת) מזוהה אוטומטית ומקושרת לכל האזכורים שלה בכל המסמכים. המבנה נשמר — אתה לא מאבד שום מטא־דאטה.
"מצלמה 3 ליד המחסן"
"מצלמה 3 תיעדה את הרכב בשעה 21:43 ליד המחסן."
"השאלה חוזרת על מיקום המכשיר ליד המחסן. הנחקר מאשר את ההגעה אך מכחיש קשר למוצג."
"לא נרשם אישור קבלה בין 10:15 ל־11:05 — פער שמופיע גם בדוח השוטר התורן."
3 תוצאות, מ־3 מסמכים, מ־3 גורמי חקירה שונים — מצורפות בהקשר אחד. הציטוטים אמיתיים, מעמוד ספציפי, וכל אחד פתוח בלחיצה אחת ב־PDF המקורי.
בנקודה הזו השעון התחיל לרוץ מ־09:14 ל־09:38. תיק 4217/26 כבר מאונדקס. אתה ב־3 התוצאות הראשונות שלך. ההתחלה של תחקיר מבוסס — לא של דפדוף.
מתי זה לא שווה
חשוב לומר את זה ישר: לא לכל תיק. אם יש לך 5 דוחות פעולה קצרים — תקרא אותם. אם הסריקה מ־1993 וכתב היד לא ברור לאדם בעצמו — ה־OCR ייפול ואין מה לעשות מזה.
התשואה האמיתית מתחילה ב־150-200 עמודים. מעל זה, ובמיוחד כשיש כמה גורמי חקירה והפניות צולבות בין מסמכים, ההפרש בין ידני לאוטומטי נעשה דרמטי.
שאלות נפוצות
כמה זמן לוקח לאנדקס תיק של 1,000 עמודים?
כדקה לכל 100 עמודים סרוקים. תיק של 1,200 עמודים — כ־12 דקות. הכל אוטומטי, בלי התערבות שלך. אחרי שהאינדוקס הסתיים אפשר להתחיל לחפש מיד.
האם כל סוגי המסמכים נתמכים?
כן — דוחות פעולה, תמלולי חקירה, מזכרי שרשרת מוצג, חוות דעת, כתבי אישום, מסמכי בנק, תמלולי האזנות. כל פורמט PDF, סרוק או טקסטואלי, באיכות סבירה. סריקות מאוד גרועות (כתב יד, רעש דיגיטלי כבד) יחזירו OCR חלקי.
מה קורה לתיק כשמסיימים ייצוג?
לחיצה אחת מוחקת הכל — מסמכים, אינדקס, גיבויים. גם אנחנו, מצד פיזי, לא יכולים לשחזר אחרי שזה נמחק. זה תכנון, לא תקלה.
פתחו את תיק 4217/26 בעצמכם
62 מסמכים, 1,184 עמודים, 5 גורמי חקירה. בלי הרשמה, בלי כרטיס אשראי, בלי טפסים. צריך 30 שניות — תקליק, תחפש, תרגיש איך זה. גם למה Ctrl+F נשבר בעברית הופך למוחשי שם.
לדמו ←